Этот предыдущий вопрос адресован как импортировать такие модули, как nltk для потоковой передачи hadoop.
Намечены следующие шаги:
zip -r nltkandyaml.zip nltk yaml
mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod
Теперь вы можете импортировать модуль nltk для использования в вашем скрипте Python:
импорт zipimport
importer = zipimport.zipimporter('nltkandyaml.mod')
yaml = importer.load_module('yaml')
nltk = importer.load_module('nltk')
У меня есть работа, которую я хочу запустить на EMR Amazon , и я не уверен, куда помещать заархивированные файлы. Нужно ли создавать сценарий начальной загрузки в параметрах Boostrapping или я должен поместить tar.gz в S3, а затем в дополнительные аргументы? Я довольно новичок во всем этом и был бы признателен за ответ, который мог бы помочь мне пройти через этот процесс.