Question

Мы работаем над созданием приложения Kafka-connect, используя исходный соединитель JDBC в режиме увеличения + отметки времени. Мы попробовали автономный режим, и он работает, как и ожидалось. Теперь мы хотели бы перейти в распределенный режим.

Когда у нас есть одна таблица Hive в качестве источника, как задачи будут распределены среди рабочих?

Проблема, с которой мы столкнулись, заключалась в том, что, когда мы запускаем приложение в нескольких экземплярах, оно запрашивает таблицу для каждого экземпляра и снова выбирает те же строки. Будет ли параллелизм работать в этом случае? Если это так,
Как задачи будут согласовываться друг с другом по текущему состоянию таблицы?

marius_neo · Answer 1 · 16 ноября 2018

Параметр tasks.max не имеет никакой разницы для разъема источника / приемника kafka-connect-jdbc. Это свойство отсутствует в исходном коде проекта коннектора jdbc.

Обратитесь к Параметры конфигурации источника JDBC , чтобы узнать о доступных свойствах этого соединителя.

распределенный режим kafka-connect jdbc

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

распределенный режим kafka-connect jdbc

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы