Как входные данные распределяются по узлам для EMR [с использованием MRJob]? - PullRequest
2 голосов
/ 21 февраля 2011

Я изучаю использование MRJob Yelp для вычислений с использованием Amazon Elastic Map Reduce.Мне нужно будет читать и записывать большое количество данных во время вычислительной работы.Каждый узел должен получать только часть данных, и я не понимаю, как это сделать.В настоящее время мои данные находятся в MongoDB и хранятся на постоянном диске EBS.

При использовании EMR как данные распределяются по узлам?Как сказать MRJob, какой ключ разделить данные?Документация MRJob EMR оставляет этап факторинга неявным: если вы открываете файл или соединение с хранилищем значений ключей S3, как он разделяет ключи?Предполагается ли, что вход является последовательностью, и автоматически разбивает ее на этом основании?

Возможно, кто-то может объяснить, как входные данные распространяются на узлы, используя пример MRJob wordcount .В этом примере вход является текстовым файлом - копируется ли он на все узлы или последовательно считывается одним узлом и распределяется по частям?

1 Ответ

1 голос
/ 02 марта 2011

В этом примере предполагается, что вы работаете с текстовыми файлами.Я не уверен, что вы можете передать параметр для использования драйвера hadoop MongoDB.

Что вы пытаетесь сделать здесь?Я работаю над драйвером hadoop MongoDB и ищу примеры и контрольные примеры.

...