Вызов скомпилированного двоичного файла в Amazon MapReduce - PullRequest
1 голос
/ 07 февраля 2012

Я пытаюсь провести анализ данных на Amazon Elastic MapReduce.Шаг mapper - это скрипт на python, который включает в себя вызов скомпилированного двоичного файла C ++ с именем «./formatData».Например:

# myMapper.py
from subprocess import *
inputData = sys.stdin.readline()
# ...
p1 = Popen('./formatData', stdin=PIPE, stdout=PIPE)
p1Output = p1.communicate(input=inputData)
result = ... # manipulate the formatted data
print "%s\t%s" % (result,1)

Можно ли вызвать подобный двоичный исполняемый файл в Amazon EMR?Если да, где я буду хранить бинарный файл (в S3?), Для какой платформы мне следует его скомпилировать и как обеспечить, чтобы мой скрипт mapper имел к нему доступ (в идеале это было бы в текущем рабочем каталоге).1005 * Спасибо!

1 Ответ

3 голосов
/ 07 февраля 2012

Вы можете вызвать двоичный файл таким образом, если убедитесь, что двоичный файл правильно скопирован на рабочие узлы.

См:

https://forums.aws.amazon.com/thread.jspa?threadID=35158

Для объяснения того, как использовать распределенный кеш, чтобы сделать двоичные файлы доступными на рабочих узлах.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...