Я использую mrjob
для отправки pyspark
задания в EMR
кластер.
Я установил переменную DIRS
в каталог исходного кода, который я хочу загрузить и импортировать.
class MRSparkWordcount(MRJob):
DIRS = ["my_module"]
...
Каталог упакован в tar.gz
и загружен на S3,
Я вижу, что mrjob
отправляет шаг EMR
, указывающий на файл my_module.tar.gz
в S3.
Но файл не распаковывается внутри EMR
, он остается файлом tar.gz
, и я не могу импортировать из него код Python.
Я что-то упустил? Разве YARN не должен распаковывать --archived
файлы?
Спасибо
Alex