Question

Я проходил через озеро дельта и наткнулся на конфигурацию spark.databricks.delta.snapshotPartitions, но не совсем уверен, для чего она используется? Не могу найти этого и в документации по дельтовому озеру.

В github дельта-озера найден код ниже, но не уверен, как это свойство работает

  val DELTA_SNAPSHOT_PARTITIONS =
    buildConf("snapshotPartitions")
      .internal()
      .doc("Number of partitions to use when building a Delta Lake snapshot.")
      .intConf
      .checkValue(n => n > 0, "Delta snapshot partition number must be positive.")
      .createOptional

zsxwing · Answer 1 · 07 мая 2020

Delta Lake использует Spark для обработки журналов транзакций в каталоге _delta_log. Когда Delta Lake загружает журналы транзакций, оно воспроизводит журналы для генерации текущего состояния таблицы, которая называется Snapshot. На этом шаге выполняется операция повторного разбиения . Вы можете использовать spark.databricks.delta.snapshotPartitions, чтобы указать, сколько разделов использовать в операции repartition. Когда метаданные вашей таблицы растут, вам может потребоваться увеличить эту конфигурацию, чтобы каждый раздел метаданных таблицы мог уместиться в памяти исполнителя.

для чего используется конфигурация spark.databricks.delta.snapshotPartitions в дельте озера?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

для чего используется конфигурация spark.databricks.delta.snapshotPartitions в дельте озера?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы