mrjob на EMR: файл --archives не распаковывается на узлах - PullRequest
0 голосов
/ 12 мая 2019

Я использую mrjob для отправки pyspark задания в EMR кластер. Я установил переменную DIRS в каталог исходного кода, который я хочу загрузить и импортировать.

class MRSparkWordcount(MRJob):

    DIRS = ["my_module"]
    ...

Каталог упакован в tar.gz и загружен на S3, Я вижу, что mrjob отправляет шаг EMR, указывающий на файл my_module.tar.gz в S3. Но файл не распаковывается внутри EMR, он остается файлом tar.gz, и я не могу импортировать из него код Python.

Я что-то упустил? Разве YARN не должен распаковывать --archived файлы?

Спасибо

Alex

...