Как использовать Confluent HDFS Source Connector для событий изменения файла pu sh на topi c? - PullRequest
0 голосов
/ 20 января 2020

У нас есть случай, когда мы хотим подключиться к HDFS и записать сообщение об изменениях в топику Kafka c. Существенно изменить сбор данных на HDFS. Я знаю, что это необычный случай, когда вы пытаетесь зафиксировать изменения из HDFS, и, к сожалению, это затрудняет поиск. У нас нет доступа к источникам, поступающим в HDFS, поэтому захват изменений данных в HDFS кажется нашим единственным реальным вариантом.

Мне не нужно самим читать файлы. Возможность поместить сообщение в топи c с полным путем к файлу и небольшой другой незначительной информацией и будет достаточно. Однако, мне нужно обработать аутентификацию Kerberos для HDFS.

Похоже, что Confluent имеет HDFS2SourceConnector и HDFS3SourceConnector . К сожалению, эти части не являются открытым исходным кодом, и было трудно понять их документацию. Кажется, что они зависят от некоторой структуры файловой системы из HDFS2SinkConnector и HDFS3SinkConnector. Лицензия не является проблемой, если они будут работать для этой цели. Я пытался заставить что-то работать здесь, но без удачи. Не ясно, на каких событиях он запускается и куда / как он записывает в топи c.

Я также наткнулся на этот https://github.com/mmolimar/kafka-connect-fs, но он не был обновлен через некоторое время, по-видимому, требуется реализация FileReader, и я не вижу поддержки Kerberos "из коробки". Я мог бы, вероятно, изменить в соответствии с нашим вариантом использования.

Существуют ли другие альтернативы или лучшая документация или примеры для плагинов Confluent?

1 Ответ

1 голос
/ 20 января 2020

Звучит так, как вы этого хотите

https://kafka-connect-fs.readthedocs.io/en/latest/connector.html#hdfs -file-watcher

не обновлялось некоторое время

Отсутствие коммитов может указывать на стабильность проекта, а не на отсутствие развития. Вы можете открыть вопросы Github и посмотреть, если вы получите ответы. В противном случае вы, по-видимому, заблокированы поддержкой Confluent / Community.

более качественная документация или примеры для плагинов Confluent

Вы можете отправить отзыв команде разработчиков документации по адресу mailto:docs@confluent.io?subject=Documentation Feedback


IMO, HDFS в первую очередь предназначен для архитектуры с однократной записью и многократным чтением, поэтому я бы посоветовал попытаться изменить хранилище данных на что-то вроде S3, на котором вы можете запускать лямбда-действия

...