Я конвертирую большой CSV-файл в файл Parquet (pyspark), пока он выглядит хорошо, пока число строк не достигнет определенного диапазона, после чего я последовательно получаю следующую ошибку при чтении
Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695
Однако этоне жалуюсь, когда я пишу CSV как файл Parquet. Есть ли какая-то конкретная конфигурация, которую мы должны сделать для обработки большого файла CSV?