Мне нужно подключить искру к моему экземпляру красного смещения для генерации данных.
Я использую спарк 1.6 с Scala 2.10.
Использовали совместимый разъем jdbc и разъем красного смещения.
Но я сталкиваюсь со странной проблемой:
Я использую pyspark
df=sqlContext.read\
.format("com.databricks.spark.redshift")\
.option("query","select top 10 * from fact_table")\
.option("url","jdbc:redshift://redshift_host:5439/events?user=usernmae&password=pass")\
.option("tempdir","s3a://redshift-archive/").load()
Когда я делаю df.show()
, тогда это дает мне ошибку разрешения, отказанного в моем ведре.
Это странно, потому что я вижу, как файлы создаются в моем ведре, но их можно прочитать.
PS. Я также установил ключ доступа и секретный ключ доступа.
PS. Я также запутался между файловой системой s3a и s3n.
Разъем используется:
https://github.com/databricks/spark-redshift/tree/branch-1.x