Оптимизатор стоимости на основе искры с помощью клея + S3 - PullRequest
0 голосов
/ 04 ноября 2019

У меня есть задания Spark, работающие в кластере EMR. EMR использует AWS Glue в качестве метастафа Hive. Задания записывают данные в S3 через EMRFS в формате паркета. Я читаю кадры данных с помощью Spark SQL с помощью метода SparkSession # table .

Можно ли настроить Оптимизатор на основе затрат Spark (CBO) с помощью AWS Glue?

AFAIK, Spark CBO хранит статистику на уровне таблицы в мета-хранилище. Он работает с Hive, но не работает с метастазами Spark по умолчанию (встроенный Derby). Так что моя путаница основана на вопросе, может ли CBO использовать Gast metastore, если он уже использует Glue в качестве мета-хранилища для Spark SQL. Я предполагаю, что ответ - да, но все еще не уверен.

1 Ответ

1 голос
/ 05 ноября 2019

К сожалению, это не поддерживается.

Оптимизация на основе затрат в Hive не поддерживается. Изменение значения hive.cbo.enable на true не поддерживается.

Ссылка: https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-glue.html

...