Скажем так: у нас в Hive хранится таблица, разбитая на дату.Например:
у нас есть таблица с именем Person
и раздел внутри нее с именем datestr=2019-01-01
, который хранится в формате Parquet (также может быть другим форматом).
Теперь в вышеприведенном разделе (datestr=2019-01-01
) есть 10 файлов паркета в HDFS .
Некоторые свойства:
Размер блока HDFS - 512 МБ
Размер файла HDFS <= 1 ГБ </p>
У меня несколько вопросов:
- Если ячитать таблицу как - `select * from Person, где datestr =" 2019-01-01 ", тогда сколько разделов будет создано?
- Если я прочту разделы напрямую, то сколько разделов будет создано -
spark.read.parquet("hdfs://path/Person/datestr-2019-01-01/)
тогда сколько разделов будет создано? - И зависят ли разделы также от форматов хранения таблиц?
Любые выводы будут полезны.