Question

После прочтения этого ответа я знаю, что количество разделов при чтении данных из Hive будет определяться блоком HDFS blockSize.

Но я сталкиваюсь с проблемой: я использую sparksql, чтобы прочитать таблицу кустов и сохранить данные в новой таблице кустов, но две таблицы кустов имеют разные номера разделов при загрузке с помощью spark sql.

  val data = spark.sql("select * from src_table")
  val partitionsNum = data.rdd.getNumPartitions
  println(partitionsNum)
  val newData = data
newData.write.mode("overwrite").format("parquet").saveAsTable("new_table")

Я не понимаю те же данные,почему разные номера разделов.

какое количество разделов, когда спарк спл читает таблицу улья?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

какое количество разделов, когда спарк спл читает таблицу улья?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов