Неверная дата: ошибка при импорте CSV в Cassandra с использованием pySpark - PullRequest
1 голос
/ 12 марта 2020

Я использую Jupyter NoteBook для запуска кода pySpark для импорта файла CSV в Cassandra v3.11.3. Ошибка ниже:


... 1 more[![enter image description here][1]][1]

enter image description here ------------------------- --------------------------------------------------

pySpark Код, который я прикрепил как изображение:

[![pyspark_code][1]][1]

Любые входы ...

enter image description here

1 Ответ

2 голосов
/ 12 марта 2020

Без полного следа трудно точно определить, где это терпит неудачу. Вставленный вами метод - это просто метод-обертка p4yj, и нам действительно нужно увидеть исключение Java.

Из того, что я могу сказать, похоже, что вы пытаетесь также использовать некоторые параметры в C* написать, что не поддерживается. Например, «MODE» - «DROPMALFORMED» не является допустимой опцией C* разъема. Параметры DataFrame Writer и Reader задаются источником c, поэтому вы, к сожалению, не можете смешивать и сопоставлять.

Это заставляет меня думать, что записываемые данные на самом деле имеют искаженную строку даты или две, и этот код умирает при попытке записать поврежденную запись. Одним из способов решения этой проблемы может быть попытка выполнить приведение даты к чтению CSV, которое, я считаю, поддерживает параметры синтаксического анализа в стиле DROPMALFORMED .

...