У меня есть два файла с 10 тысячами строк.Моя цель - вычислить расстояние Жакара для каждой пары слов.Я должен использовать инфраструктуру MapReduce, потому что она в задании (да, это домашняя работа).
У меня есть решение, которое, кажется, работает.Вместо того, чтобы класть здесь кучу кода, я сделал GitHub gist .
Поскольку документации по созданию пользовательского InputFormater нет, я сделал это, просто взглянув на существующий исходный код.
Основная проблема - размер файлов.Они должны быть небольшими, чтобы их можно было разделить, поэтому Hadoop создает всего один Mapper, который обрабатывает весь ввод.Есть ли способ как его улучшить?
Я также ожидаю, что код не идеален, поэтому я приветствую все отзывы.
Я использую Hadoop 3.1.1.