После прочтения этого ответа я знаю, что количество разделов при чтении данных из Hive будет определяться блоком HDFS blockSize.
Но я сталкиваюсь с проблемой: я использую sparksql, чтобы прочитать таблицу кустов и сохранить данные в новой таблице кустов, но две таблицы кустов имеют разные номера разделов при загрузке с помощью spark sql.
val data = spark.sql("select * from src_table")
val partitionsNum = data.rdd.getNumPartitions
println(partitionsNum)
val newData = data
newData.write.mode("overwrite").format("parquet").saveAsTable("new_table")
Я не понимаю те же данные,почему разные номера разделов.