В настоящее время мы используем Flink DataSet API для чтения файлов из FileSystem и применения некоторых пакетных преобразований. Мы также хотим получить общее количество записей, обработанных после завершения работы. Конвейер похож на dataset.map().filter()
Функция count () кажется непараллельным оператором и требует дополнительных вычислений из всего набора данных.
Существуют ли подходы для подсчета обработанных записей в операторе карты и дать побочный вывод, такой как потоковое, чтобы мы могли объединить их, чтобы получить общее количество? Или любой другой лучший способ сделать это?
Большое спасибо!