Свинья сваливает не все цифры - PullRequest
0 голосов
/ 06 мая 2018

Я загрузил данные в Hadoop с помощью Pig, но когда я выгружаю таблицу csv, похоже, мои данные были разделены на миллион. Оригинал CSV:

state   population
California  39144818
Texas   27469114
Florida 20271272

Свинья код для загрузки:

statePopFile =LOAD 'hdfs:/home/ubuntu/final/gunData/statePops.csv' using             PigStorage(',');
stateRec = FOREACH statePopFile GENERATE $0 AS state ,$1 as population;
dump stateRec;

Вывод с консоли выглядит следующим образом

(California,"39)
(Texas,"27)
(Florida,"20)

1 Ответ

0 голосов
/ 06 мая 2018

Моя проблема заключалась в загрузке данных и разделении на ','. Это было сокращение числа. Это было решено разделением на \ t

...