Question

У меня есть два файла с 10 тысячами строк.Моя цель - вычислить расстояние Жакара для каждой пары слов.Я должен использовать инфраструктуру MapReduce, потому что она в задании (да, это домашняя работа).

У меня есть решение, которое, кажется, работает.Вместо того, чтобы класть здесь кучу кода, я сделал GitHub gist .

Поскольку документации по созданию пользовательского InputFormater нет, я сделал это, просто взглянув на существующий исходный код.

Основная проблема - размер файлов.Они должны быть небольшими, чтобы их можно было разделить, поэтому Hadoop создает всего один Mapper, который обрабатывает весь ввод.Есть ли способ как его улучшить?

Я также ожидаю, что код не идеален, поэтому я приветствую все отзывы.

Я использую Hadoop 3.1.1.

Hadoop декартово произведение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Hadoop декартово произведение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы