Pig CSVExcelStorage неправильно загружает многострочные данные - PullRequest
0 голосов
/ 28 февраля 2019

Сделал запрос для записей csv из stackexchange - здесь .Запрос дает мне около 50000 записей.

Попытка загрузить эти записи в pig, используя piggybank - CSVExcelStorage, используя следующие команды.

REGISTER piggybank.jar;
DEFINE CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage;

tmpData = LOAD 'data/file.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE') AS (id:chararray, score:chararray, viewCount:chararray, tags:chararray, title:chararray, ownerId:chararray, body:chararray);


STORE tmpData INTO 'pig_output/output/' using PigStorage(',');

Теперь вышеприведенный каталог будет состоять из 2файлы part-m-00000 и part-m-00001

part-m-00000 состоят из ~ 28000 записей со всеми правильно импортированными данными, но part-m-00001 данные начинаются с неправильных данных (скажем, ,,,,,)

Я получил точное число последней строки part-m-00000, равное 28892. Получил данные, чтобы проверить, как они загружаются

увеличил количество журналов, которые будут сброшены на 1

toDisplay = LIMIT tmpData 28893; improperly loaded
dump toDisplay;

Поворотыout, последняя строка недействительна ,,,,,.

Те же результаты, даже если я загружаю данные using PigStorage(',').

Проверены данные, чтобы проверить, не происходит ли что-то подозрительное - нет.Это просто многострочный пост (очень похожий на этот пост).

Libre calc правильно открывает данные.Единственная проблема заключается в загрузке данных в pig (требуется очистить данные - невозможно сделать это, поскольку он даже не импортирует должным образом !!)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...