распределенный режим kafka-connect jdbc - PullRequest
0 голосов
/ 29 августа 2018

Мы работаем над созданием приложения Kafka-connect, используя исходный соединитель JDBC в режиме увеличения + отметки времени. Мы попробовали автономный режим, и он работает, как и ожидалось. Теперь мы хотели бы перейти в распределенный режим.

Когда у нас есть одна таблица Hive в качестве источника, как задачи будут распределены среди рабочих?

Проблема, с которой мы столкнулись, заключалась в том, что, когда мы запускаем приложение в нескольких экземплярах, оно запрашивает таблицу для каждого экземпляра и снова выбирает те же строки. Будет ли параллелизм работать в этом случае? Если это так,
Как задачи будут согласовываться друг с другом по текущему состоянию таблицы?

1 Ответ

0 голосов
/ 16 ноября 2018

Параметр tasks.max не имеет никакой разницы для разъема источника / приемника kafka-connect-jdbc. Это свойство отсутствует в исходном коде проекта коннектора jdbc.

Обратитесь к Параметры конфигурации источника JDBC , чтобы узнать о доступных свойствах этого соединителя.

...