Насколько я понимаю, spark.sql.files.maxPartitionBytes
используется для управления размером раздела, когда spark читает данные из hdfs. Однако я использовал spark sql для чтения данных за конкретную дату в формате hdf. Он содержит 768 файлов. Самый большой файл - 4,7 ГБ. Самый маленький файл - 17,8 МБ.
, размер блока hdfs - 128 МБ. значение spark.sql.files.maxPartitionBytes
составляет 128 МБ.
Я ожидал, что spark разделит большой файл на несколько разделов и сделает каждый раздел размером не более 128 МБ. Однако, это не работает так.
Я знаю, что мы можем использовать repartition (), но это дорогостоящая операция.