Как указать источник данных в spark.read.format при использовании драйвера прямых данных jdbc Greenplum (greenplum.jar) для чтения таблицы greenplum? - PullRequest
0 голосов
/ 12 января 2019

Я пытаюсь прочитать данные из таблицы на Greenplum, используя спарк. Я написал код, как показано ниже:

  val yearDF = spark.read.format("io.pivotal.greenplum.spark.GreenplumRelationProvider").option("url", connectionUrl)
    .option("server.port","5432")
    .option("dbtable", "tablename")
    .option("dbschema","schemaname")
    .option("user", devUserName)
    .option("password", devPassword)
    .option("partitionColumn","employeeLoc")
    .option("partitions",450)
    .load()
    .where("period_year=2017 and period_num=12")
    .select(gpColSeq map col:_*)
    .withColumn(flagCol, lit(0))

Я использую greenplum.jar, который предоставляет драйверу data direct jdbc для чтения данных из таблицы greenplum с помощью Spark. Я использую следующую команду spark-submit:

SPARK_MAJOR_VERSION=2 spark-submit --class com.partition.source.YearPartition --master=yarn --conf spark.ui.port=4090 --driver-class-path /home/hdpuser/jars/greenplum.jar,/home/hdpuser/jars/postgresql-42.1.4.jar --conf spark.jars=/home/hdpuser/jars/greenplum.jar,/home/hdpuser/jars/postgresql-42.1.4.jar --executor-cores 3 --executor-memory 13G --keytab /home/hdpuser/hdpuser.keytab --principal hdpuser@devuser.COM --files /usr/hdp/current/spark2-client/conf/hive-site.xml,testconnection.properties --name Splinter --conf spark.executor.extraClassPath=/home/hdpuser/jars/greenplum.jar,/home/hdpuser/jars/postgresql-42.1.4.jar splinter_2.11-0.1.jar

Когда я отправляю банку, я вижу исключение:

Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: io.pivotal.greenplum.spark.GreenplumRelationProvider. Please find packages at http://spark.apache.org/third-party-projects.html
    at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:553)
    at org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:89)
    at org.apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:89)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:304)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:146)
    at com.partition.source.YearPartition$.prepareFinalDF$1(YearPartition.scala:154)
    at com.partition.source.YearPartition$.main(YearPartition.scala:181)
    at com.partition.source.YearPartition.main(YearPartition.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:782)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: io.pivotal.greenplum.spark.GreenplumRelationProvider.DefaultSource
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$22$$anonfun$apply$14.apply(DataSource.scala:537)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$22$$anonfun$apply$14.apply(DataSource.scala:537)
    at scala.util.Try$.apply(Try.scala:192)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$22.apply(DataSource.scala:537)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$22.apply(DataSource.scala:537)
    at scala.util.Try.orElse(Try.scala:84)
    at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:537)

Я понял, что это связано с использованием io.pivotal.greenplum.spark.GreenplumRelationProvider в операторе источника данных, т.е.

spark.read.format ( "io.pivotal.greenplum.spark.GreenplumRelationProvider")

Я попытался "io.pivotal.greenplum.spark.GreenplumRelationProvider" & "greenplum", но оба результата привели к одному и тому же исключению:

Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source:

io.pivotal.greenplum.spark.GreenplumRelationProvider. Пожалуйста найди пакеты на http://spark.apache.org/third-party-projects.html

Я не могу думать о том, что я должен предоставить в качестве источника данных в операторе spark.read.format при использовании прямой передачи данных jdbc jar: greenplum.jar

Может кто-нибудь сообщить мне, как я могу решить эту проблему?

1 Ответ

0 голосов
/ 30 января 2019

какую версию разъема greenplum-spark вы используете?

Вы должны быть в состоянии указать пользовательский драйвер jdbc в опции "драйвер". обратитесь к http://greenplum -spark.docs.pivotal.io / 160 / using_the_connector.html # use_custom_jdbcdriver .

Вы можете указать источник данных следующим образом:

spark.read.format("greenplum")

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...