Как подсчитать общее количество записей, прочитанных в источнике, используя API набора данных Flink - PullRequest
1 голос
/ 01 мая 2020

В настоящее время мы используем Flink DataSet API для чтения файлов из FileSystem и применения некоторых пакетных преобразований. Мы также хотим получить общее количество записей, обработанных после завершения работы. Конвейер похож на dataset.map().filter()

Функция count () кажется непараллельным оператором и требует дополнительных вычислений из всего набора данных.

Существуют ли подходы для подсчета обработанных записей в операторе карты и дать побочный вывод, такой как потоковое, чтобы мы могли объединить их, чтобы получить общее количество? Или любой другой лучший способ сделать это?

Большое спасибо!

1 Ответ

1 голос
/ 07 мая 2020

Вы, вероятно, хотите использовать counters. Эти счетчики позволяют выводить небольшую статистику по каждой задаче, которая автоматически накапливается при завершении задания.

...