Question

Я конвертирую большой CSV-файл в файл Parquet (pyspark), пока он выглядит хорошо, пока число строк не достигнет определенного диапазона, после чего я последовательно получаю следующую ошибку при чтении

Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695

Однако этоне жалуюсь, когда я пишу CSV как файл Parquet. Есть ли какая-то конкретная конфигурация, которую мы должны сделать для обработки большого файла CSV?

Преобразование большого CSV-файла в паркет с использованием pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Преобразование большого CSV-файла в паркет с использованием pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов