У меня есть требование прочитать данные из HDFS и опубликовать sh их в топике Кафки c. Поскольку они являются частью API-интерфейсов DataSet и DataStream, возможно ли выполнить то, что я ищу, в одной работе?
API Flink DataStream можно использовать для чтения из файлов HDFS. См. readfile() в https://ci.apache.org/projects/flink/flink-docs-stable/dev/datastream_api.html#data -источниках . Или вы можете использовать коннектор файловой системы с API таблиц и SQL, но он поддерживает только CSV.
readfile()