Spark org.postgresql.Driver не найден, хотя настроен EMR - PullRequest
0 голосов
/ 07 ноября 2019

Я пытаюсь записать фрейм данных pyspark в базу данных Postgres со следующим кодом:

mode = "overwrite"
url = "jdbc:postgresql://host/database"
properties = {"user": "user","password": "password","driver": "org.postgresql.Driver"}
dfTestWrite.write.jdbc(url=url, table="test_result", mode=mode, properties=properties)

Однако я получаю следующую ошибку:

An error occurred while calling o236.jdbc.
: java.lang.ClassNotFoundException: org.postgresql.Driver

У меня естьнашел несколько вопросов SO, которые касаются аналогичной проблемы, но не нашел ничего, что могло бы помочь. Я добавил документацию AWS здесь , чтобы добавить конфигурацию, и с консоли EMR все выглядит так, как будто она прошла успешно:

EMR Screenshot

Что я делаю не так?

1 Ответ

0 голосов
/ 07 ноября 2019

То, что вы следили за документом, это добавить соединитель базы данных для Presto, и это не способ добавить драйвер jdbc в спарк. Разъем не означает драйвер.

Вы должны скачать драйвер jdbc postgresql и найти его в каталоге lib lib или где-нибудь, чтобы ссылаться на него конфигурацией.

...