Запись в режиме добавления к красному смещению в pyspark - PullRequest
0 голосов
/ 16 января 2019

Я пытаюсь добавить фрейм данных в таблицу красного смещения с помощью pyspark.

Что я делаю не так?

Таблица существует и уже содержит некоторые данные.

myDf.write \
.format("com.databricks.spark.redshift") \
.option("url", JDBC_REDSHIFT) \
.option('forward_spark_s3_credentials', "true") \
.option("dbtable", MY_TABLE) \
.option("tempdir","s3n://MyDir") \
.save(mode='append')

Я получаю эту ошибку -

MyDir") .save(mode='append')
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 701, in save
  File "/usr/lib/spark/python/lib/py4j-0.10.6-src.zip/py4j/java_gateway.py", line 1160, in __call__
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: 'Failed to find data source: com.databricks.spark.avro. Please find an Avro package at http://spark.apache.org/third-party-projects.html;'

1 Ответ

0 голосов
/ 17 января 2019

Похоже, вам не хватает пакета Avro. Spark записывает кадр данных в S3 в формате Avro, а затем загружает эти данные в Redshift.

...