Я загрузил данные в Hadoop с помощью Pig, но когда я выгружаю таблицу csv, похоже, мои данные были разделены на миллион. Оригинал CSV:
state population
California 39144818
Texas 27469114
Florida 20271272
Свинья код для загрузки:
statePopFile =LOAD 'hdfs:/home/ubuntu/final/gunData/statePops.csv' using PigStorage(',');
stateRec = FOREACH statePopFile GENERATE $0 AS state ,$1 as population;
dump stateRec;
Вывод с консоли выглядит следующим образом
(California,"39)
(Texas,"27)
(Florida,"20)