Какой способ запуска задания Amazon Elastic Mapreduce зависит от Numpy? - PullRequest
1 голос
/ 30 апреля 2011

Часть карты моей работы в Mapreduce зависит от Numpy. Итак, это означает, что мне нужно установить numpy как часть действий по загрузке.

То, о чем я думаю, это создание собственного пакета Numpy, хранящегося на S3, который выбирается и устанавливается во время действий boostrap.

Есть ли лучший способ?

1 Ответ

1 голос
/ 09 февраля 2012

Numpy теперь устанавливается на экземпляры Amazon Elastic MapReduce, но если вы хотите использовать другие модули, вы можете заархивировать их, распространить среди своих сотрудников с помощью DistributedCache (используя "-cacheFile"), а затем импортировать их с помощью Python встроенный модуль "zipimport".

См .: http://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/

...