Я начинаю с hadoop 0.20.2. Я хотел начать с основной проблемы с количеством слов в коде, который нашел здесь:
http://cxwangyi.blogspot.com/2009/12/wordcount-tutorial-for-hadoop-0201.html
Это работает так, как должно.
Однако, когда слова разделены на несколько файлов, и я хочу посчитать слова на файл, поэтому я изменяю маппер на:
String fileName = ((org.apache.hadoop.mapreduce.lib.input.FileSplit) context.getInputSplit()).getPath().getName();
word.set(itr.nextToken()+"@"+fileName);
Но затем я получаю дубликаты в моем файле с уменьшенной картой, например так:
word1 @ file1 1
word2 @ file2 1
word2 @ file2 ~ 1
...
Так что word2 @ file2 ~ 1 не должно было быть там ...
Кто-нибудь знает, что я делаю не так?
Спасибо