Запустите AWS / EMR Spark Job с bash - Пример игрушки - PullRequest
0 голосов
/ 24 апреля 2020

У меня есть корзина s3 с несколькими каталогами, содержащими простой файл CSV. Структура очень проста:

s3://bucket/parent_directory/dir1/file.csv
s3://bucket/parent_directory/dir2/file.csv
...
s3://bucket/parent_directory/dirn/file.csv

Я бы хотел вычислить среднее значение для одного из столбцов в качестве теста использования EMR / Spark для AWS. Я хочу сделать это через bash, чтобы у меня был воспроизводимый образец, который мало зависит от ручных настроек, выполненных в консоли AWS.

Каждый файл имеет около 40 г, и у нас их около 100. Это должно быть отличным вариантом использования Spark для EMR. Было бы идеально, если бы у spark была отдельная рабочая машина для каждого файла.

Как правильно соединить это в aws? Похоже, вы должны начать с:

aws emr create-cluser --release-label emr-6.0.0 --aplications Name=Spark 

И как только кластер будет создан, мне нужно будет передать код для его выполнения. Это было какое-то время, но я помню, как в последний раз использовал spark через pyspark, что было очень просто - но, вероятно, не подходящий шаблон для этого. Создание банки и ее передача каким-то образом кажется правильным подходом.

Может ли кто-нибудь дать руководство?

...