Question

У меня есть задания Spark, работающие в кластере EMR. EMR использует AWS Glue в качестве метастафа Hive. Задания записывают данные в S3 через EMRFS в формате паркета. Я читаю кадры данных с помощью Spark SQL с помощью метода SparkSession # table .

Можно ли настроить Оптимизатор на основе затрат Spark (CBO) с помощью AWS Glue?

AFAIK, Spark CBO хранит статистику на уровне таблицы в мета-хранилище. Он работает с Hive, но не работает с метастазами Spark по умолчанию (встроенный Derby). Так что моя путаница основана на вопросе, может ли CBO использовать Gast metastore, если он уже использует Glue в качестве мета-хранилища для Spark SQL. Я предполагаю, что ответ - да, но все еще не уверен.

Sandeep Fatangare · Answer 1 · 05 ноября 2019

К сожалению, это не поддерживается.

Оптимизация на основе затрат в Hive не поддерживается. Изменение значения hive.cbo.enable на true не поддерживается.

Ссылка: https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-glue.html

Оптимизатор стоимости на основе искры с помощью клея + S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Оптимизатор стоимости на основе искры с помощью клея + S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы