Как написать pyspark-dataframe для красного смещения? - PullRequest
2 голосов
/ 04 мая 2019

Я пытаюсь записать фрейм данных pyspark в Redshift, но это приводит к ошибке: -

java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: поставщик org.apache.sparkНе удалось создать экземпляр .sql.avro.AvroFileFormat

Причина: java.lang.NoSuchMethodError: org.apache.spark.sql.execution.datasources.FileFormat. $ init $ (Lorg / apache / spark / sql/ execute / datasources / FileFormat;) V

Версия Spark: 2.4.1

Команда Spark-submit: spark-submit --master local [*] --jars ~ / Downloads / spark-avro_2.12-2.4.0.jar, ~ / Загрузки / AWS-Java-СДК-1.7.4.jar, ~ / Загрузки / RedshiftJDBC42-нет-awssdk-1.2.20.1043.jar, ~ / Загрузки / Hadoop-AWS-2.7.3.jar, ~ / Downloads / hadoop-common-2.7.3.jar - пакеты com.databricks: spark-redshift_2.11: 2.0.1, com.amazonaws: aws-java-sdk: 1.7.4, org.apache.hadoop: hadoop-aws: 2.7.3, org.apache.hadoop: hadoop-common: 2.7.3, org.apache.spark: spark-avro_2.12: 2.4.0 script.py

from pyspark.sql import DataFrameReader
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
from pyspark.sql import SQLContext
from pyspark.sql.functions import pandas_udf, PandasUDFType
from pyspark.sql.types import *

import sys
import os

pe_dl_dbname            = os.environ.get("REDSHIFT_DL_DBNAME")
pe_dl_host              = os.environ.get("REDSHIFT_DL_HOST")
pe_dl_port              = os.environ.get("REDSHIFT_DL_PORT")
pe_dl_user              = os.environ.get("REDSHIFT_DL_USER")
pe_dl_password          = os.environ.get("REDSHIFT_DL_PASSWORD")

s3_bucket_path = "s3-bucket-name/sub-folder/sub-sub-folder"
tempdir = "s3a://{}".format(s3_bucket_path)

driver = "com.databricks.spark.redshift"
sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
spark = SparkSession(sc)
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

sc._jsc.hadoopConfiguration().set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")

datalake_jdbc_url = 'jdbc:redshift://{}:{}/{}?user={}&password={}'.format(pe_dl_host, pe_dl_port, pe_dl_dbname, pe_dl_user, pe_dl_password)

"""
The table is created in Redshift as follows:
create table adhoc_analytics.testing (name varchar(255), age integer);
"""
l = [('Alice', 1)]
df = spark.createDataFrame(l, ['name', 'age'])
df.show()
df.write \
  .format("com.databricks.spark.redshift") \
  .option("url", datalake_jdbc_url) \
  .option("dbtable", "adhoc_analytics.testing") \
  .option("tempdir", tempdir) \
  .option("tempformat", "CSV") \
  .save()

1 Ответ

1 голос
/ 04 мая 2019

Databricks Spark-Redshift не работает с Spark версии 2.4.1, Вот версия, которую я поддерживаю, чтобы она работала с Spark 2.4.1 https://github.com/goibibo/spark-redshift

Как это использовать:

pyspark --packages "com.github.goibibo: spark-redshift: v4.1.0" --repositories "https://jitpack.io"

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...