Pyspark Не удается разрешить имя столбца, если столбец существует - PullRequest
0 голосов
/ 31 декабря 2018

У меня был некоторый код Pyspark, который работал с образцом BLOB-файла csv, а затем я решил указать его на больший набор данных.Эта строка:

df= df.withColumn("TransactionDate", df["TransactionDate"].cast(TimestampType()))

Сейчас выдает эту ошибку:

AnalysisException: u'Cannot resolve column name "TransactionDate" among ("TransactionDate","Country ...

Очевидно, что TransactionDate существует в виде столбца в наборе данных, так почему он вдруг не работает?

1 Ответ

0 голосов
/ 31 декабря 2018

Ах, хорошо, я понял это.Если вы получили эту проблему, проверьте разделитель.В моем новом наборе данных это было ",", как и в моем меньшем образце было "|"

df = spark.read.format(file_type).options(header='true', quote='"', delimiter=",",ignoreLeadingWhiteSpace='true',inferSchema='true').load(file_location)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...