Kafka Connect: может ли несколько автономных коннекторов записывать в один каталог HDFS? - PullRequest
0 голосов
/ 24 января 2020

Для нашего конвейера у нас есть около 40 тем (по 10-25 разделов), которые мы хотим записать в один и тот же каталог HDFS, используя HDFS 3 Sink Connectors в автономном режиме (распределенный не работает для нашей текущей настройки). Мы попытались запустить все темы на одном соединителе, но столкнулись с проблемами восстановления смещений, если его необходимо перезапустить.

Если мы разделим разделы между разными автономными соединителями, могут ли они все записать в один каталог HDFS? Так как коннекторы затем организуют все файлы в HDFS по topi c, я не думаю, что это должно быть проблемой, но мне интересно, есть ли у кого-нибудь опыт с этой настройкой.

Basi c пример: Коннектор-1 конфиг

name=connect-1
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic1
hdfs.url=hdfs://kafkaOutput

Коннектор-2 конфиг

name=connect-2
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic2
hdfs.url=hdfs://kafkaOutput

1 Ответ

0 голосов
/ 24 января 2020

распределенный не работает для нашей текущей настройки

Вы должны быть в состоянии запустить connect-distibured в тех же узлах, что и connect-standalone.

Мы попытались запустить все темы на одном соединителе, но столкнулись с проблемами при восстановлении смещений, если его необходимо перезапустить

Да, я бы предложил не связывать все topics в один разъем.

Если мы разделим темы между различными автономными соединителями, могут ли они все записать в один каталог HDFS?

Это моя личная рекомендация, и да, потому что они могут, потому что путь HDFS именуется именем topi c, далее разделенным схемой разделения


Примечание. Следующее разрешение применяется ко всем другим разъемам хранения (S3 и GCS)

...