Как запустить Spark Job в создании EMR с помощью terraform - PullRequest
0 голосов
/ 27 февраля 2019

Мой пример использования следующий.Через Terraform я хочу создать кластер EMR, запустить задание Spark и завершить работу кластера после его завершения.

Я нашел этот пошаговый механизм в документации Terraform (https://www.terraform.io/docs/providers/aws/r/emr_cluster.html#step-1), но не сделал этогонайдите любой пример для Spark Job в Google (

Возможно, я делаю неправильно, потому что мой вариант использования выглядит довольно простым, но я не могу найти другой способ сделать это.

Спасибоза вашу помощь

1 Ответ

0 голосов
/ 28 февраля 2019

Наконец-то нашел. С помощью пошаговой инструкции можно запустить Spark Job из Jar-файла, хранящегося в s3

step {
    action_on_failure = "TERMINATE_CLUSTER"
    name   = "Launch Spark Job"

    hadoop_jar_step {
      jar  = "command-runner.jar"
      args = ["spark-submit","--class","com.mycompany.App","--master","yarn","s3://my_bucket/my_jar_with_dependencies.jar"]
    }
}
...