Я ищу документацию о том, как parquet.enable.dictionary будет использоваться в Spark (последняя версия 2.3.1).При создании SparkSession может быть установлено значение «true» или «false».
Я гуглил любую документацию по этой функции и ничего не нашел, или, по крайней мере, ничего недавно.
В частности, этомои вопросы:
Является ли parquet.filter.dictionary.enabled = true или = false по умолчанию в Spark 2.3.1?
Является ли эта функция включенной (установленной в true) до Я записываю файлы Parquet таким образом, что библиотека Spark Parquet вычисляет и записывает информацию словаря на диск?
Этот параметр игнорируется, когда Spark читает файлы Parquet, или мне все еще нужно установить значение true для чтения паркета (а также для записи)?
Когда я должен использовать эту функцию (установлено в true)?Плюсы / минусы?
Я также вижу ссылки на этот spark.hadoop.parquet.enable.dictionary , когда я гуглил для parquet.enable.dictionary.Это связано?Что мне следует использовать?
Существуют ли какие-либо другие настройки Spark + Parquet , которые мне необходимо знать?
Большое спасибо!