Question

Я использую структурированную потоковую обработку Spark (используйте SSS в качестве сокращения ниже), чтобы использовать данные в kafka, а затем записывать их в hdfs в формате паркета.Кажется, все работает хорошо.Но я считаю, что они имеют одинаковое имя файла, когда запись продолжается и заканчивается.Это приведет к ошибке при попытке прочитать данные в разделах.

path/day=20190924/hour=11/part-00001-0200ea2f-eaff-47ec-8399-8f7e5dfb3c13.c000.snappy.parquet is not a Parquet file.

Как избежать этой ошибки?В мгновение ока они будут иметь имя файла tmp при записи и переименовывать после окончания записи.

Как избежать чтения файлов паркета, которые находятся в состоянии ожидания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как избежать чтения файлов паркета, которые находятся в состоянии ожидания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы