Использование потоковой передачи Spark для чтения данных Json из раздела Kafka.
Я использую DataFrame для обработки данных, а позже я хочу сохранить выходные данные в файлы HDFS.Проблема заключается в том, что при использовании:
df.write.save("append").format("text")
выдает много файлов, некоторые из которых имеют большой размер, а некоторые имеют размер даже 0 байт.
Существует ли способ управления количеством выходных файлов?Кроме того, чтобы избежать «противоположной» проблемы, есть ли способ также ограничить размер каждого файла, чтобы новый файл записывался, когда текущий достигает определенного размера / числа строк?