Преобразование большого CSV-файла в паркет с использованием pyspark - PullRequest
0 голосов
/ 03 октября 2019

Я конвертирую большой CSV-файл в файл Parquet (pyspark), пока он выглядит хорошо, пока число строк не достигнет определенного диапазона, после чего я последовательно получаю следующую ошибку при чтении

Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695

Однако этоне жалуюсь, когда я пишу CSV как файл Parquet. Есть ли какая-то конкретная конфигурация, которую мы должны сделать для обработки большого файла CSV?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...