Я использую структурированную потоковую обработку Spark (используйте SSS в качестве сокращения ниже), чтобы использовать данные в kafka, а затем записывать их в hdfs в формате паркета.Кажется, все работает хорошо.Но я считаю, что они имеют одинаковое имя файла, когда запись продолжается и заканчивается.Это приведет к ошибке при попытке прочитать данные в разделах.
path/day=20190924/hour=11/part-00001-0200ea2f-eaff-47ec-8399-8f7e5dfb3c13.c000.snappy.parquet is not a Parquet file.
Как избежать этой ошибки?В мгновение ока они будут иметь имя файла tmp при записи и переименовывать после окончания записи.