Отправка pyspark с поддержкой файлов sql в zip-файл на AWS EMR - PullRequest
1 голос
/ 23 октября 2019

Я ищу ссылки на файлы, не относящиеся к Python (например, SQL, config, txt), сохраненные в формате .zip на S3 в моем приложении pyspark на Amazon EMR. Я пробовал --py-файлы, но это работало только с моими файлами Python. Я все еще не могу использовать свои сжатые файлы SQL / config из S3 в Amazon EMR. У кого-нибудь есть какие-нибудь решения для этого?

1 Ответ

0 голосов
/ 23 октября 2019

Флаг, который вы ищете --archives. По сути, вы даете ему zip-файл, и он извлекает его в каталог, в котором выполняется каждый контейнер пряжи. Вы должны иметь доступ к ним, используя относительные пути в вашем скрипте.

Вы также можете контролировать имя папки, в которую вы распаковываете zip, добавив #{name} в конец. Например --archives s3://aaa/some.zip#files. Spark упоминает об этом только мимоходом:

https://spark.apache.org/docs/latest/running-on-yarn.html#important-notes

Следует помнить одну вещь: если вы работаете с --deploy-mode client, тогда ваш драйвер не использует контейнер для пряжи, ипоэтому не будет иметь доступа к файлам. Вместо этого вы захотите использовать --deploy-mode cluster.

...