У меня есть задания Spark, работающие в кластере EMR. EMR использует AWS Glue в качестве метастафа Hive. Задания записывают данные в S3 через EMRFS в формате паркета. Я читаю кадры данных с помощью Spark SQL с помощью метода SparkSession # table .
Можно ли настроить Оптимизатор на основе затрат Spark (CBO) с помощью AWS Glue?
AFAIK, Spark CBO хранит статистику на уровне таблицы в мета-хранилище. Он работает с Hive, но не работает с метастазами Spark по умолчанию (встроенный Derby). Так что моя путаница основана на вопросе, может ли CBO использовать Gast metastore, если он уже использует Glue в качестве мета-хранилища для Spark SQL. Я предполагаю, что ответ - да, но все еще не уверен.