Я использую потоковое приложение flink с входным источником в качестве файловой системы nfs и приемником в качестве производителя kafka.
Я использую функцию непрерывного мониторинга, которая пересылает разбиения файлов, которые не поддерживают parllelism, и continousFileOperator с parllelism.
Исходные данные, которые мы имеем, составляют 4 ТБ данных. для начальной передачи функции непрерывного монитора требуется много времени для подготовки состояния, которое в порядке, но контрольные точки продолжают истекать до завершения. Я изменил checkpointingTimeout на 3 часа, все еще не работает.
Могу ли я узнать, что состоит из состояния контрольной точки, имеет ли это значение с размером данных?
Могу ли я узнать, как я могу изобразить размер состояния будет?
Есть ли лучший способ сделать для первоначального запуска с большими данными?