Интеграционный хаб

Подключаем данные заказчика из разных источников и складываем их в нужные приёмники. Настройка — через админку, специфика источника — в кастомном парсере на Python.

Источники данных

Откуда забираем данные

Файловые хранилища

  • Объектные хранилища (S3, MinIO), FTP/FTPS, SFTP, сетевые папки и NFS
  • Авторизация: ключи доступа, логин-пароль, по SSH-ключу
  • Берёт новые и изменённые файлы, сразу разбирает документы

Базы данных

  • Основные СУБД: PostgreSQL, MySQL / MariaDB, Microsoft SQL Server, Oracle
  • Авторизация: логин-пароль, защищённое подключение (SSL)
  • Инкрементальная выборка по отметке изменений

Очередь сообщений (Kafka)

  • Приём входящих сообщений из потока в реальном времени
  • Авторизация: защищённое подключение (SASL / TLS)
  • Обработка без потерь сообщений

Внешние сервисы (HTTP API)

  • Обращение к веб-сервисам, разные режимы постраничной выборки
  • Авторизация: API-ключ, Bearer-токен, Basic, OAuth2
  • Автоматическое продолжение по страницам

Веб-сайты

  • Обход сайта и разбор страниц кастомным Python-парсером
  • Структуру данных задаёт сам парсер — подключается почти любой сайт

Приёмники

Куда складываем данные

OpenSearch — поиск

  • Запись в единый индекс или в раздельные индексы по типам данных
  • С векторизацией (поиск по смыслу) или без неё (поиск по точным словам)
  • Настройки поиска: языковой анализатор, поля и веса, гибридный режим
  • Формат данных задаётся при настройке индекса

Реляционная БД

  • Внутренний PostgreSQL платформы или внешняя реляционная БД заказчика
  • Запись в готовую таблицу или авто-создание структуры из полей данных

Объектное хранилище (MinIO)

  • Складирование исходных файлов и результатов как есть
  • Удобно как промежуточный слой и архив

Как настроить

Всё через админку, специфика — в парсере

Настройка через админку

Источник и приёмник заводятся в серверной админке: тип, доступ, расписание и параметры. Без правки кода платформы — это конфигурация.

Кастомные Python-парсеры

Для нестандартного источника интегратор загружает свой парсер на Python через ту же админку (с проверкой). Код исполняется в изолированном окружении и сам задаёт структуру данных.

Подключитьисточник в админке
Забрать данныепо расписанию
Разобратьготовый или свой парсер
Записатьв приёмник
Повторный запуск не плодит дубли и продолжает с последней обработанной позиции — при сбое ничего не теряется

Читать дальше