Вызывает ли разделение блоков большого файла в hdfs усечение слов во время выполнения mapreduce wordcount - PullRequest
0 голосов
/ 08 сентября 2018

Например:

raw file: aaaa bbbb aaaa bbbbnf

Если мы запустим wordcount для вычисления необработанного файла, мы получим результат:

aaaa   2
bbbb   1
bbbbnf 1

но если файл разделен на несколько блоков ниже:

block1: 
aaaa bbbb aa

block2:
aa bbbbnf

тогда ошибка в подсчете слов

...