Возможность включить каталог клея для Presto / Spark на EMR, используя Terraform - PullRequest
0 голосов
/ 28 февраля 2019

Хотелось узнать, есть ли поддержка для включения каталога клея aws для Presto / Spark при работе на EMR. Не удалось найти ничего в документации.

Ответы [ 2 ]

0 голосов
/ 06 мая 2019

По ссылке, приведенной в ответе выше, я смог смоделировать код terraform следующим образом:

Создать файл configuration.json.tpl со следующим содержимым

[{
       "Classification": "spark-hive-site",
       "Properties": {
         "hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"
       }
     }
]

Создатьшаблон из приведенного выше шаблона в вашем коде terraform

data "template_file" "cluster_1_configuration" {
  template = "${file("${path.module}/templates/configuration.json.tpl")}"
}

А затем настройте кластер таким образом:

resource "aws_emr_cluster" "cluster_1" {
  name          = "${var.cluster_name}-1"
  release_label = "emr-5.21.0"
  applications  = ["Spark", "Zeppelin", "Hadoop","Sqoop"]
  log_uri       = "s3n://${var.cluster_name}/logs/"
  configurations = "${data.template_file.cluster_1_configuration.rendered}"
  ...
}

Теперь клей должен работать из Spark, это можно проверить, позвонивspark.catalog.listDatabase (). show () из spark-shell.

0 голосов
/ 01 марта 2019

В следующих документах AWS обсуждается использование Apache Spark и Hive в Amazon EMR с каталогом данных AWS Glue, а также использование каталога данных AWS Glue в качестве стандартного мета-хранилища Hive для Presto (версия Amazon EMR 5.10.0 и более поздние).Надеюсь, вы ищете это?

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-presto-glue.html и

и

https://aws.amazon.com/about-aws/whats-new/2017/08/use-apache-spark-and-hive-on-amazon-emr-with-the-aws-glue-data-catalog/

Также, пожалуйста,проверьте эту ссылку SO для некоторых конфигураций каталога клея в EMR:

Проблема с каталогом данных клея AWS в качестве Metastore для Spark SQL в EMR

...