Сделал запрос для записей csv из stackexchange - здесь .Запрос дает мне около 50000 записей.
Попытка загрузить эти записи в pig, используя piggybank - CSVExcelStorage
, используя следующие команды.
REGISTER piggybank.jar;
DEFINE CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage;
tmpData = LOAD 'data/file.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE') AS (id:chararray, score:chararray, viewCount:chararray, tags:chararray, title:chararray, ownerId:chararray, body:chararray);
STORE tmpData INTO 'pig_output/output/' using PigStorage(',');
Теперь вышеприведенный каталог будет состоять из 2файлы part-m-00000
и part-m-00001
part-m-00000
состоят из ~ 28000 записей со всеми правильно импортированными данными, но part-m-00001
данные начинаются с неправильных данных (скажем, ,,,,,
)
Я получил точное число последней строки part-m-00000
, равное 28892. Получил данные, чтобы проверить, как они загружаются
увеличил количество журналов, которые будут сброшены на 1
toDisplay = LIMIT tmpData 28893; improperly loaded
dump toDisplay;
Поворотыout, последняя строка недействительна ,,,,,
.
Те же результаты, даже если я загружаю данные using PigStorage(',')
.
Проверены данные, чтобы проверить, не происходит ли что-то подозрительное - нет.Это просто многострочный пост (очень похожий на этот пост).
Libre calc правильно открывает данные.Единственная проблема заключается в загрузке данных в pig (требуется очистить данные - невозможно сделать это, поскольку он даже не импортирует должным образом !!)