Access AWS RDS от Pyspark EMR - PullRequest
       74

Access AWS RDS от Pyspark EMR

0 голосов
/ 27 апреля 2020

Я пытаюсь получить доступ к некоторым таблицам в RDS, используя Pyspark в EMR.

Я пытался установить драйверы JDB C в / usr / share / java, но похоже, что искра не поднимает драйверы

from pyspark.sql import SparkSession
jdbc_url = "jdbc:mysql://{0}:{1}/{2}".format(hostname, jdbcPort, dbname)

hostname = "rds_host"
jdbcPort = 3306
dbname = 'demo'
username = 'user'
password = 'pass'
table = "demo_table"

connectionProperties = {
  "user" : "user",
  "password" : "pass"
}

my_df = spark.read.jdbc(url=jdbc_url, table='SRC_CONNECTION', properties= connectionProperties)
my_df.show()




ERROR:
py4j.protocol.Py4JJavaError: An error occurred while calling o66.jdbc.
: java.sql.SQLException: No suitable driver`

1 Ответ

1 голос
/ 27 апреля 2020

Добавить mysql-connector-java-*.jar при инициализации оболочки pyspark используйте `--jars.

  • Для spark-submit с использованием аргумента --driver-classpath <jar_path>.

  • В связи с Свойствами добавить driver : "com.mysql.jdbc.Driver"

...