Я изучаю использование MRJob Yelp для вычислений с использованием Amazon Elastic Map Reduce.Мне нужно будет читать и записывать большое количество данных во время вычислительной работы.Каждый узел должен получать только часть данных, и я не понимаю, как это сделать.В настоящее время мои данные находятся в MongoDB и хранятся на постоянном диске EBS.
При использовании EMR как данные распределяются по узлам?Как сказать MRJob, какой ключ разделить данные?Документация MRJob EMR оставляет этап факторинга неявным: если вы открываете файл или соединение с хранилищем значений ключей S3, как он разделяет ключи?Предполагается ли, что вход является последовательностью, и автоматически разбивает ее на этом основании?
Возможно, кто-то может объяснить, как входные данные распространяются на узлы, используя пример MRJob wordcount .В этом примере вход является текстовым файлом - копируется ли он на все узлы или последовательно считывается одним узлом и распределяется по частям?