Flink - обрабатывает поток данных в ограниченном контексте (например, набор данных) - PullRequest
0 голосов
/ 24 сентября 2018

Мне нужно объединить несколько файлов, чтобы выполнить некоторую обработку. API набора данных является идеальным способом для достижения этой цели, я могу сделать это, когда читаю файл в пакетном режиме (csv)

Однако вСреда prod, я получу эти файлы в сообщениях kafka (одно сообщение = одна строка файла)
Поэтому я рассматриваю возможность использования глобального окна + настраиваемый триггер для сообщения о завершении файла и функцию окна процесса.
Но я не могу зайти слишком далеко с этим, поскольку процесс - это только одна функция, а сцепление функций будет проблемой.Я не думаю, что отправка потока данных и окон / триггера в EOF перед каждой функцией процесса является хорошей идеей

Однако я хотел бы работать в ограниченном режиме, как только получу все свои элементы (после триггерав глобальном окне), как API набора данных, так как я присоединяюсь ко всему моему набору данных.

Я подумал, может быть, было бы неплохо использовать API таблицы и окно группы?но вы не можете иметь пользовательский триггер и окно глобальной группы для таблицы? (например, глобальное окно для потока данных?)
Лучшей альтернативой было бы создание набора данных в результате выполнения моей функции окна процесса ... но я неНе думаю, что это возможно

С наилучшими пожеланиями,

...