Необходимо подключить Spark 2.4 к Postgresql 10.4
Используя pyspark, я просто пытаюсь установить соединение с Postresql.
Я скачал postgresql-42.2.5.jar и поместил его в свойКаталог / spark / jars.
Я прочитал МНОГИЕ сообщения и пробовал МНОГИЕ варианты кода, приведенного ниже, но всегда получаю одно и то же исключение:
Произошла ошибка при вызове o1128.load.: java.lang.ClassNotFoundException: org.postgresql.Driver
from pyspark.sql import SparkSession
# create spark entry point
sparkSession = SparkSession.builder \
.appName('myapp') \
.getOrCreate()
df = sparkSession.read \
.format('jdbc') \
.option('url', 'jdbc:postgresql://<ip>:5432/<database>') \
.option('dbtable', 'mytable') \
.option('user', '<user>') \
.option('password', '<password>') \
.option('driver', 'org.postgresql.Driver') \
.load()
df.printSchema()
sparkSession.stop()