Я работаю над алгоритмом распараллеливания, который примерно выполняет следующие действия:
- Чтение нескольких текстовых документов общим объемом 10 тыс. Слов.
- Создание объектов для каждого словав текстовом корпусе.
- Создать пару между всеми слово-объектами (да, O (n)).И вернуть наиболее часто встречающиеся пары.
Я хотел бы распараллелить шаг 3., создав пары между первыми 1000 объектами слов, остальными на первой машине, вторыми 1000 объектами слов наследующий компьютер и т. д.
Мой вопрос: как передать объекты, созданные в шаге 2., в Mapper?Насколько я знаю, мне потребуются входные файлы для этого и, следовательно, потребуется сериализовать объекты (хотя раньше это не работало).Есть ли прямой способ передать объекты в Mapper?
Заранее спасибо за помощь
Евгений
ОБНОВЛЕНИЕ Спасибо, что прочитали моивопрос раньше.Сериализация, кажется, лучший способ решить эту проблему (см. Java.io.Serializable).Кроме того, я нашел этот учебник полезным для чтения данных из сериализованных объектов в hadoop: http://www.cs.brown.edu/~pavlo/hadoop/).