Как выполнить команду S3-dist-cp в приложении spark-submit - PullRequest
0 голосов
/ 21 декабря 2018

У меня есть файл jar, который предоставляется для spark-submit.With в методе в jar.Я пытаюсь сделать

Import sys.process._
s3-dist-cp —src hdfs:///tasks/ —dest s3://<destination-bucket>

Я также установил s3-dist-cp на все salves вместе с master.Приложение запускается и успешно выполняется без ошибок, но не перемещает данные на S3.

Ответы [ 2 ]

0 голосов
/ 11 января 2019

s3-dist-cp теперь используется по умолчанию на главном узле кластера EMR.

Мне удалось успешно выполнить s3-dist-cp из с помощью команды spark-submit, если искразаявка подается в режиме «клиент».

0 голосов
/ 02 января 2019

Это не правильный прямой ответ на ваш вопрос, но я использовал вместо этого hadoop distcp (https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html)), и он успешно переместил данные. В моих тестах он довольно медленный по сравнению с spark.write.parquet(путь), хотя (при учете времени, затраченного на дополнительную запись в hdfs, которая требуется для использования hadoop distcp). Мне также очень интересен ответ на ваш вопрос; я думаю, что s3-dist-cp можетБыстрее, учитывая дополнительную оптимизацию, сделанную Amazon.

...