Некоторое время назад я написал сокращение карты Hadoop для одного из моих классов. Я сканировал несколько баз данных IMD и производил объединенную информацию об актерах (в основном имя, биография и фильмы, в которых он снимался, были в разных базах данных). Я думаю, что вы можете использовать тот же подход, который я использовал для моей домашней работы:
Я написал отдельное сокращение карты, превращая каждый файл базы данных в один и тот же формат, просто поместив двухбуквенный префикс напротив каждой строки, создаваемой картой-сокращением, чтобы иметь возможность указывать «BI» (биография), «MV» (фильмы) и скоро. Затем я использовал все эти созданные файлы в качестве входных данных для моей последней уменьшенной карты, которая обработала их, сгруппировав их желаемым способом.
Я даже не уверен, что вам нужно так много работать, если вы действительно собираетесь сканировать каждую строку хранилища данных. Возможно, в этом случае вы можете просто выполнить это сканирование либо на карте, либо на этапе сокращения (в зависимости от того, какую дополнительную обработку вы хотите выполнить), но мое предложение предполагает, что вам действительно необходимо отфильтровать хранилище данных на основе подмножеств. Если последнее, мое предложение может сработать для вас.