Python пакетов, не импортируемых в AWS EMR - PullRequest
0 голосов
/ 30 марта 2020

Я пытаюсь отправить работу в кластер EMR через Livy. Мой Python скрипт (для отправки задания) требует импорта нескольких пакетов. Я установил все эти пакеты на главном узле EMR. Основной сценарий находится на S3, который вызывается сценарием для отправки задания в Livy из EC2. Каждый раз, когда я пытаюсь запустить задание на удаленной машине (EC2), он умирает, сообщая об ошибках импорта (нет модуля с именем [имя мода])

Я застрял на нем более недели и не могу найти возможное решение. Любая помощь будет высоко ценится. Спасибо.

1 Ответ

1 голос
/ 31 марта 2020

Эти пакеты, которые вы пытаетесь импортировать. Это нестандартные пакеты? если да, то как ты их упаковал? Вы создали файл wheel или zip-файл и задали их как --py-файлы в вашей отправке с помощью spark через livy?

Возможная проблема.

Вы установили пакеты только на главном узле. Вам нужно будет войти в свои рабочие узлы и установить там пакеты. В противном случае, когда вы настраиваете emr, устанавливайте пакеты, используя bootstrap actions

. У вас должна быть возможность добавлять библиотеки с помощью опции -py-files, но безопаснее просто скачать файлы wheel и использовать их, а не архивировать все что угодно.

...