Дубликаты в Hadoop Mapreduce - PullRequest
       21

Дубликаты в Hadoop Mapreduce

0 голосов
/ 30 декабря 2011

Я начинаю с hadoop 0.20.2. Я хотел начать с основной проблемы с количеством слов в коде, который нашел здесь: http://cxwangyi.blogspot.com/2009/12/wordcount-tutorial-for-hadoop-0201.html

Это работает так, как должно. Однако, когда слова разделены на несколько файлов, и я хочу посчитать слова на файл, поэтому я изменяю маппер на:

String fileName = ((org.apache.hadoop.mapreduce.lib.input.FileSplit) context.getInputSplit()).getPath().getName();

            word.set(itr.nextToken()+"@"+fileName);

Но затем я получаю дубликаты в моем файле с уменьшенной картой, например так: word1 @ file1 1 word2 @ file2 1 word2 @ file2 ~ 1 ...

Так что word2 @ file2 ~ 1 не должно было быть там ...

Кто-нибудь знает, что я делаю не так?

Спасибо

1 Ответ

2 голосов
/ 30 декабря 2011

Вы уверены, что у вас нет файла с тильдой в конце, добавленного к входу для задания hadoop? Некоторые редакторы, такие как Gedit, генерируют их каждый раз, когда файл редактируется.

...