У нас есть случай, когда мы хотим подключиться к HDFS и записать сообщение об изменениях в топику Kafka c. Существенно изменить сбор данных на HDFS. Я знаю, что это необычный случай, когда вы пытаетесь зафиксировать изменения из HDFS, и, к сожалению, это затрудняет поиск. У нас нет доступа к источникам, поступающим в HDFS, поэтому захват изменений данных в HDFS кажется нашим единственным реальным вариантом.
Мне не нужно самим читать файлы. Возможность поместить сообщение в топи c с полным путем к файлу и небольшой другой незначительной информацией и будет достаточно. Однако, мне нужно обработать аутентификацию Kerberos для HDFS.
Похоже, что Confluent имеет HDFS2SourceConnector и HDFS3SourceConnector . К сожалению, эти части не являются открытым исходным кодом, и было трудно понять их документацию. Кажется, что они зависят от некоторой структуры файловой системы из HDFS2SinkConnector и HDFS3SinkConnector. Лицензия не является проблемой, если они будут работать для этой цели. Я пытался заставить что-то работать здесь, но без удачи. Не ясно, на каких событиях он запускается и куда / как он записывает в топи c.
Я также наткнулся на этот https://github.com/mmolimar/kafka-connect-fs, но он не был обновлен через некоторое время, по-видимому, требуется реализация FileReader, и я не вижу поддержки Kerberos "из коробки". Я мог бы, вероятно, изменить в соответствии с нашим вариантом использования.
Существуют ли другие альтернативы или лучшая документация или примеры для плагинов Confluent?