Распределенное выполнение в StreamSets - PullRequest
1 голос
/ 11 марта 2020

Я хочу понять, как работает StreamSets Data Collector. Что происходит, когда выполняется конвейер Streamsets?
Имеет ли он распределенное выполнение, основные и рабочие процессы? Какие компоненты отвечают для основных и рабочих процессов? А что внутри? Я прочитал документацию - https://streamsets.com/documentation/controlhub/3.3.2/installhelp/controlhub/InstallationGuide/InstallationOverview/Architecture.html Например Apache Flink использует ActorSystems. Не могу найти информацию, не могли бы вы мне помочь?

1 Ответ

0 голосов
/ 12 марта 2020

Сборщик данных StreamSets - это одно Java приложение с веб-интерфейсом. Вы проектируете конвейер, и он сохраняется как JSON. Когда вы запускаете конвейер, механизм выполнения (часть того же приложения Java) загружает представление JSON, считывает данные в память из сконфигурированного источника данных, манипулирует ими в памяти в соответствии с настроенными вами процессорами и записывает это один или несколько пунктов назначения.

StreamSets Control Hub предоставляет централизованный веб-интерфейс, где вы можете снова проектировать свои конвейеры, но в этом случае вы можете подключить один или несколько сборщиков данных для управления Hub и отправки заданий в экземпляры сборщика данных на основе вашей конфигурации - например, в Control Hub вы можете запустить задание для выполнения конвейера на 2 экземплярах сборщика данных с меткой dev. Control Hub также содержит централизованное версионное хранилище конвейеров и позволяет создавать топологий , состоящих из нескольких конвейеров, каждый из которых передает следующий.

...