Закончена ли функция ввода в Hadoop применительно к ее ключу? - PullRequest
0 голосов
/ 22 ноября 2011

Я смотрю на решения проблемы, которая включает чтение ключевых данных из более чем одного файла.На одном шаге карты мне нужны все значения для определенного ключа в одном и том же месте одновременно.Я вижу в книге Уайта дискуссию о «перемешивании», и у меня возникает соблазн задаться вопросом, сортируются ли данные по ключу, когда вы выходите из слияния и ввода в редуктор, если есть все данные для ключа…могу рассчитывать на это.

Большие картинки: я хочу создать федерацию тройного магазина для бедного человека, а тройки, которые я хочу загрузить в хранилище в памяти, не все из одного файла.,Это вертикальный (?) Раздел, в котором значения для определенного ключа находятся в разных файлах.Иными словами, каждый столбец для полной записи взят из разных файлов.Собирает ли Hadoop это?... хотя бы для одного ключа за раз.

1 Ответ

4 голосов
/ 22 ноября 2011

Короче говоря: да.В задании Hadoop секционер выбирает, какой редуктор получает какие (ключ, значение) пары.Цитата из учебного раздела Yahoo по разбиению : «Необходимо, чтобы для любого ключа, независимо от того, какой экземпляр маппера его сгенерировал, целевой раздел был одинаковым».Это также необходимо для многих типов алгоритмов, обычно решаемых с помощью метода редукции карт (таких как распределенная сортировка, которую вы описываете).

...