Ошибка чтения pyspark, когда я сохраняю фрейм данных в формате orc и читаю - PullRequest
0 голосов
/ 11 сентября 2018

У меня есть какой-то фрейм данных. Я сохраняю этот фрейм данных, используя следующий код:

df.write.orc("file:///home/test/path/orc")

Сохранение прошло успешно, оно не выдает никакой ошибки, но когда я читаю это, используя

df1=spark.read.orc("file:///home/test/path/orc")

нижеошибка

Traceback (most recent call last):
  File "/home/user1/soft/spark/spark-2.3.1-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/sql/utils.py", line 63, in deco
  File "/home/user1/soft/spark/spark-2.3.1-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o24.orc.
: org.apache.spark.sql.catalyst.parser.ParseException:
mismatched input '.' expecting ':'(line 1, pos 515)

== SQL ==

Но если я использую паркетный формат для сохранения и чтения, он отлично работает

 df.write.parquet("file:///home/test/path/parquet")
 df1=spark.read.parquet("file:///home/test/path/parquet")
...