Мне нужно объединить несколько файлов, чтобы выполнить некоторую обработку. API набора данных является идеальным способом для достижения этой цели, я могу сделать это, когда читаю файл в пакетном режиме (csv)
Однако вСреда prod, я получу эти файлы в сообщениях kafka (одно сообщение = одна строка файла)
Поэтому я рассматриваю возможность использования глобального окна + настраиваемый триггер для сообщения о завершении файла и функцию окна процесса.
Но я не могу зайти слишком далеко с этим, поскольку процесс - это только одна функция, а сцепление функций будет проблемой.Я не думаю, что отправка потока данных и окон / триггера в EOF перед каждой функцией процесса является хорошей идеей
Однако я хотел бы работать в ограниченном режиме, как только получу все свои элементы (после триггерав глобальном окне), как API набора данных, так как я присоединяюсь ко всему моему набору данных.
Я подумал, может быть, было бы неплохо использовать API таблицы и окно группы?но вы не можете иметь пользовательский триггер и окно глобальной группы для таблицы? (например, глобальное окно для потока данных?)
Лучшей альтернативой было бы создание набора данных в результате выполнения моей функции окна процесса ... но я неНе думаю, что это возможно
С наилучшими пожеланиями,