У меня работает кластер Amazon EMR.Если я сделаю
ls -l /usr/share/aws/redshift/jdbc/
, это даст мне
RedshiftJDBC41-1.2.7.1003.jar
RedshiftJDBC42-1.2.7.1003.jar
Теперь я хочу использовать это jar
для подключения к моим Redshift database
в моем spark-shell
.Вот что я делаю -
import org.apache.spark.sql._
val sqlContext = new SQLContext(sc)
val df : DataFrame = sqlContext.read
.option("url","jdbc:redshift://host:PORT/DB-name?user=user&password=password")
.option("dbtable","tablename")
.load()
и я получаю эту ошибку -
org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
Я не уверен, правильно ли я указал format
при чтении данных.Я также прочитал, что spark-redshift driver
доступен, но я не хочу запускать spark-submit
с extra JARS
.
Как подключиться к данным красного смещения из Spark-shell?Это правильный JAR для настройки соединения в Spark?