Мы работаем над созданием приложения Kafka-connect, используя исходный соединитель JDBC в режиме увеличения + отметки времени. Мы попробовали автономный режим, и он работает, как и ожидалось. Теперь мы хотели бы перейти в распределенный режим.
Когда у нас есть одна таблица Hive в качестве источника, как задачи будут распределены среди рабочих?
Проблема, с которой мы столкнулись, заключалась в том, что, когда мы запускаем приложение в нескольких экземплярах, оно запрашивает таблицу для каждого экземпляра и снова выбирает те же строки. Будет ли параллелизм работать в этом случае? Если это так,
Как задачи будут согласовываться друг с другом по текущему состоянию таблицы?