Подключите Spark 2.4 к Postgresql-10.4 - PullRequest
0 голосов
/ 13 июня 2019

Необходимо подключить Spark 2.4 к Postgresql 10.4

Используя pyspark, я просто пытаюсь установить соединение с Postresql.
Я скачал postgresql-42.2.5.jar и поместил его в свойКаталог / spark / jars.
Я прочитал МНОГИЕ сообщения и пробовал МНОГИЕ варианты кода, приведенного ниже, но всегда получаю одно и то же исключение:
Произошла ошибка при вызове o1128.load.: java.lang.ClassNotFoundException: org.postgresql.Driver

from pyspark.sql import SparkSession

# create spark entry point
sparkSession = SparkSession.builder \
                           .appName('myapp') \
                           .getOrCreate()

df = sparkSession.read \
    .format('jdbc') \
    .option('url', 'jdbc:postgresql://<ip>:5432/<database>') \
    .option('dbtable', 'mytable') \
    .option('user', '<user>') \
    .option('password', '<password>') \
    .option('driver', 'org.postgresql.Driver') \
    .load()

df.printSchema()

sparkSession.stop()

1 Ответ

0 голосов
/ 14 июня 2019

Решением было переформатировать вызов sparkSession.read следующим образом:

sqlContext.read.format("jdbc")\
    .options(driver="org.postgresql.Driver", 
             url="jdbc:postgresql://<ip>:<port>/<dbname>", 
             dbtable="tablename",
             user="<user>", 
             password="<password").load()
...