Я использую приемник Flink от Kafka до HDFS.Версия Flink - 1.4.2.
Я обнаружил, что при каждом перезапуске задания происходит некоторая потеря данных, даже с сохранением.
Я обнаружил, что эту проблему можно решить, еслиЯ установил писатель SequenceFile.CompressionType.RECORD вместо SequenceFile.CompressionType.BLOCK.Кажется, когда Flink пытается сохранить контрольную точку, действительная длина отличается от реальной длины, которая должна включать сжатые данные.
Но это может быть проблемой, если мы не можем использовать CompressionType.BLOCK из-за использования диска.Как я могу предотвратить потерю данных с помощью сжатия блоков при перезапуске задания?
Является ли это известной проблемой для Flink?Или кто-нибудь знает, как решить эту проблему?