какое количество разделов, когда спарк спл читает таблицу улья? - PullRequest
0 голосов
/ 15 мая 2018

После прочтения этого ответа я знаю, что количество разделов при чтении данных из Hive будет определяться блоком HDFS blockSize.

Но я сталкиваюсь с проблемой: я использую sparksql, чтобы прочитать таблицу кустов и сохранить данные в новой таблице кустов, но две таблицы кустов имеют разные номера разделов при загрузке с помощью spark sql.

  val data = spark.sql("select * from src_table")
  val partitionsNum = data.rdd.getNumPartitions
  println(partitionsNum)
  val newData = data
newData.write.mode("overwrite").format("parquet").saveAsTable("new_table")

Я не понимаю те же данные,почему разные номера разделов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...