Hadoop декартово произведение - PullRequest
0 голосов
/ 26 сентября 2018

У меня есть два файла с 10 тысячами строк.Моя цель - вычислить расстояние Жакара для каждой пары слов.Я должен использовать инфраструктуру MapReduce, потому что она в задании (да, это домашняя работа).

У меня есть решение, которое, кажется, работает.Вместо того, чтобы класть здесь кучу кода, я сделал GitHub gist .

Поскольку документации по созданию пользовательского InputFormater нет, я сделал это, просто взглянув на существующий исходный код.

Основная проблема - размер файлов.Они должны быть небольшими, чтобы их можно было разделить, поэтому Hadoop создает всего один Mapper, который обрабатывает весь ввод.Есть ли способ как его улучшить?

Я также ожидаю, что код не идеален, поэтому я приветствую все отзывы.

Я использую Hadoop 3.1.1.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...