Question

Я новичок в Hadoop. Я понял программу WordCount. Теперь у меня проблема. Я не хочу вывод всех слов ..

- Words_I_Want.txt - hello echo raj

- Text.txt - hello eveyone. I want hello and echo count

вывод должен быть
hello 2 echo 1 raj 0

Теперь это был пример. Мои реальные данные очень большие.

matt b · Answer 1 · 04 августа 2010

В примере WordCount , Mapper выводит каждое слово токена из входного значения и числа 1:

while (tokenizer.hasMoreTokens()) {
    word.set(tokenizer.nextToken());
    output.collect(word, one);
}

Если вы хотите считать только определенные слова, не хотите ли вы выводить только слова из вашего Mapper, которые совпадают с вашим списком?

while (tokenizer.hasMoreTokens()) {
    String token = tokenizer.nextToken();
    if (wordsThatYouCareAbout.contains(token)) {
        word.set(token);
        output.collect(word, one);
    }
}

Jieren · Answer 2 · 10 августа 2010

Ответ Мэтта b определенно хорош для больших и маленьких объединений, но давайте предположим, что вы делаете соединение от большого к большому.

Вы можете отобразить Words_I_Want.txt: k: слово, v: какой-то маркер

Затем вы можете отобразить Text.txt: k: слово, v: 1 (аналогично стандартному количеству слов)

Вам нужно будет использовать MultipleInputs и выяснить, какой файл является каким, используя conf.get ("map.input.file").

Тогда на шаге уменьшения вы можете собирать выходные данные только тогда, когда у ключа есть маркер.

пользовательский подсчет слов с помощью hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

пользовательский подсчет слов с помощью hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы