Привет Я пытался придумать модифицированную версию стандарта WordCount v1.0
при этом я читаю все файлы из входного каталога (args [0]) и печатаю вывод в выходной каталог (args [ 1 ]), который состоит не только из слов и количества вхождений, но список файлов, где произошли совпадения.
Так, например, у меня есть 2 текстовых файла:
//1.txt
I love hadoop
and big data
//2.txt
I like programming
hate big data
Вывод будет:
//Output.txt
I 2 1.txt 2.txt
love 1 1.txt
hadoop 1 1.txt
and 1 1.txt
big 2 1.txt 2.txt
data 2 1.txt 2.txt
like 1 1.txt
programming 1 2.txt
hate 1 2.txt
На данном этапе я не уверен, как извлечь имя файла, в котором произошло совпадение. Кроме того, я не уверен, как сохранить имя файла - буду ли я использовать Triple или мне нужно будет использовать вложенные карты, так что, возможно, Map (K1, Map (K2, v))? Я не знаю, что было бы возможно в программе mapreduce, поэтому любые советы будут с благодарностью.