Как искра решает, нет.разделов / задач для создания при чтении из Hive - PullRequest
0 голосов
/ 22 мая 2019

Скажем так: у нас в Hive хранится таблица, разбитая на дату.Например:

у нас есть таблица с именем Person и раздел внутри нее с именем datestr=2019-01-01, который хранится в формате Parquet (также может быть другим форматом).

Теперь в вышеприведенном разделе (datestr=2019-01-01) есть 10 файлов паркета в HDFS .

Некоторые свойства:

Размер блока HDFS - 512 МБ

Размер файла HDFS <= 1 ГБ </p>

У меня несколько вопросов:

  • Если ячитать таблицу как - `select * from Person, где datestr =" 2019-01-01 ", тогда сколько разделов будет создано?
  • Если я прочту разделы напрямую, то сколько разделов будет создано - spark.read.parquet("hdfs://path/Person/datestr-2019-01-01/)тогда сколько разделов будет создано?
  • И зависят ли разделы также от форматов хранения таблиц?

Любые выводы будут полезны.

...