Документация для вариантов свечей - PullRequest
1 голос
/ 28 апреля 2020

На этот вопрос, вероятно, легко ответить, но, судя по всему, я не могу его найти.

Может кто-нибудь указать мне документацию для различных вариантов пары ключ-значение, которые вы можете использовать со свечой?

Пример такой опции (в pyspark):

some_spark_table.write.format("parquet").option("parquet.block.size", 1234)

Так что, если меня интересует, что такое единица измерения для опции parquet.block.size, где я могу Найди это?

Я нашел эту ссылку , в которой содержательно говорится: «Чтобы найти более подробную информацию о дополнительных опциях ORC / Parquet, посетите официальные Apache сайты ORC / Parquet». Но я до сих пор не могу его найти.

Ответы [ 2 ]

3 голосов
/ 28 апреля 2020

Как говорит c, вы можете посетить официальный сайт Apache Parquet. Я думаю, что на официальном сайте они имеют в виду паркет git репо :)

Цитировать оттуда:

Свойство: parquet.block .size
Описание: Размер блока в байтах. Это свойство зависит от файловой системы:

  • Если используемая файловая система (FS) поддерживает такие блоки, как HDFS, размер блока будет максимальным между размером блока по умолчанию для FS и этим свойством. , И размер группы строк будет равен этому свойству.

    • block_size = max(default_fs_block_size, parquet.block.size)
    • row_group_size = parquet.block.size
  • Если используется файловая система не поддерживает блоки, тогда это свойство будет определять размер группы строк.

Обратите внимание, что большие значения размера группы строк улучшат ввод-вывод при чтении, но потребляют больше памяти при записи
Значение по умолчанию: 134217728 (128 МБ)

В отличие от Parquet, собственные настройки конфигурации Spark довольно хорошо документированы (те, о которых они хотят, чтобы вы знали) на своем веб-сайте, как указано в другом ответе .

1 голос
/ 28 апреля 2020

Вы должны go через официальную документацию, чтобы найти свойства. Например, свойства, связанные с паркетом (https://spark.apache.org/docs/2.4.0/sql-data-sources-parquet.html#configuration)

В то время как большинство свойств, связанных с конфигурацией, вы можете найти здесь .

Надеюсь помогает!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...