Мы столкнулись с той же проблемой.Мы также удивлены тем, что DataSet
не поддерживает addSink()
.
Я рекомендую не переключаться в потоковый режим.Вы можете отказаться от некоторых оптимизаций (т. Е. Пулов памяти), доступных в пакетном режиме.
Возможно, вам придется реализовать свой собственный OutputFormat , чтобы выполнить группирование.
Вместо этого вы можете расширить OutputFormat[YOUR_RECORD]
(или RichOutputFormat[]
), где вы все еще можете использовать BucketAssigner[YOUR_RECORD, String]
для открытия / записи / закрытия выходных потоков.
Это то, что мы сделали ион отлично работает.
Я надеюсь, что Flink скоро поддержит это в пакетном режиме.