Перезапуск приемника Flink Bucketing с точкой сохранения может привести к потере данных. - PullRequest
0 голосов
/ 24 апреля 2019

Я использую приемник Flink от Kafka до HDFS.Версия Flink - 1.4.2.

Я обнаружил, что при каждом перезапуске задания происходит некоторая потеря данных, даже с сохранением.

Я обнаружил, что эту проблему можно решить, еслиЯ установил писатель SequenceFile.CompressionType.RECORD вместо SequenceFile.CompressionType.BLOCK.Кажется, когда Flink пытается сохранить контрольную точку, действительная длина отличается от реальной длины, которая должна включать сжатые данные.

Но это может быть проблемой, если мы не можем использовать CompressionType.BLOCK из-за использования диска.Как я могу предотвратить потерю данных с помощью сжатия блоков при перезапуске задания?

Является ли это известной проблемой для Flink?Или кто-нибудь знает, как решить эту проблему?

1 Ответ

1 голос
/ 24 апреля 2019

Flink's BucketingSink больше не рекомендуется использовать. Вместо этого сообщество рекомендует использовать StreamingFileSink, который был представлен в Flink 1.6.0.

...