Flink 1.6, ведущий сток, файлы HDFS застряли в .in-progress - PullRequest
0 голосов
/ 19 октября 2018

Я записываю поток данных Kafka в ведущий приемник по пути HDFS.Кафка выдает строковые данные.Использование FlinkKafkaConsumer010 для получения от Kafka

-rw-r--r--   3 ubuntu supergroup    4097694 2018-10-19 19:16 /streaming/2018-10-19--19/_part-0-1.in-progress
-rw-r--r--   3 ubuntu supergroup    3890083 2018-10-19 19:16 /streaming/2018-10-19--19/_part-1-1.in-progress
-rw-r--r--   3 ubuntu supergroup    3910767 2018-10-19 19:16 /streaming/2018-10-19--19/_part-2-1.in-progress
-rw-r--r--   3 ubuntu supergroup    4053052 2018-10-19 19:16 /streaming/2018-10-19--19/_part-3-1.in-progress

Это происходит только тогда, когда я использую некоторую функцию отображения для управления данными потока на лету.Если я напрямую записываю поток в HDFS, он работает нормально.Есть идеи, почему это может происходить?Я использую Flink 1.6.1, Hadoop 3.1.1 и Oracle JDK1.8

1 Ответ

0 голосов
/ 21 октября 2018

Этот сценарий обычно происходит, когда контрольная точка отключена.

Не могли бы вы проверить настройки контрольных точек при выполнении задания с функцией сопоставления?Похоже, вы включили контрольные точки для записи работы непосредственно в HDFS.

...