Question

Насколько я понимаю, spark.sql.files.maxPartitionBytes используется для управления размером раздела, когда spark читает данные из hdfs. Однако я использовал spark sql для чтения данных за конкретную дату в формате hdf. Он содержит 768 файлов. Самый большой файл - 4,7 ГБ. Самый маленький файл - 17,8 МБ.

, размер блока hdfs - 128 МБ. значение spark.sql.files.maxPartitionBytes составляет 128 МБ.

Я ожидал, что spark разделит большой файл на несколько разделов и сделает каждый раздел размером не более 128 МБ. Однако, это не работает так.

Я знаю, что мы можем использовать repartition (), но это дорогостоящая операция.

Spark 2.0+: spark.sql.files.maxPartitionBytes не работает?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark 2.0+: spark.sql.files.maxPartitionBytes не работает?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы