Я использую spark-структурированную потоковую передачу в качестве потребителя для получения данных от kafka, следуя инструкциям, обратитесь к https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html
Затем сохраните данные в формате hdfs в виде файла паркета.
ЗдесьМой вопрос: программа работает хорошо, но некоторые контейнеры редко выходят из строя (но это не помогло), что приводит к повреждению паркетных файлов.это приведет к ошибке, как [это не файл Parquet (слишком маленькая длина: 4)] или [.parquet не является файлом Parquet.ожидаемое магическое число в хвосте [80, 65, 82, 49], но найдено [56, 52, 53, 51]] при чтении их.Я должен переместить их в другие каталоги и убедиться, что запрос из улья работает хорошо.Но я не уверен, приведет ли это к потере данных из-за перемещения.
Я знаю, что для восстановления используется контрольная точка с искровой структурой, но поскольку некоторые данные записаны как паркет, я не уверен, что смещениепомечено как совершенное.