Apache Flink - чтение файлов паркета из HDFS через каждые N часов - PullRequest
0 голосов
/ 26 июня 2019

У меня есть несколько паркетных файлов, которые я прочитал в потоковом приложении Flink, чтобы создать внутреннее состояние, используя ValueState.Это работает очень хорошо, однако файлы обновляются каждые пару часов, поэтому я хотел бы перечитать файлы для обновления системы.

Поскольку это потоковое приложение, файлы представляют собой ограниченные потоки, но я бы хотелнапример, DataStreamSource для повторного запуска для повторного чтения данных каждые N часов и обработки таким образом, как неограниченный поток.Возможно ли это с помощью Apache Flink?

Я мог бы перезапускать все приложение каждые N часов, когда данные не передаются, но мне интересно, есть ли способ сделать это, не прибегая к перезапускам.

...