Загрузка данных из красного смещения Amazon в HDFS - PullRequest
0 голосов
/ 08 июня 2018

Я пытаюсь загрузить данные из Amazon Redshift в HDFS.

val df = spark.read.format("com.databricks.spark.redshift")
    > .option("forward_spark_s3_credentials", "true").option("url",
    > "jdbc:redshift://xxx1").option("user","xxx2").option("password",
    > "xxx3") .option("query", "xxx4") .option("driver",
    > "com.amazon.redshift.jdbc.Driver") .option("tempdir", "s3n://xxx5")
    > .load()

Это код Scala, который я использую.Когда я делаю df.count() и df.printSchema(), это дает мне правильную схему и счет.Но когда я делаю df.show() или пытаюсь записать его в hdfs, он говорит:

S3ServiceException: Идентификатор ключа доступа AWS, который вы указали, не существует в наших записях., Состояние 403, Ошибка InvalidAccessKeyId

1 Ответ

0 голосов
/ 08 июня 2018

Вам необходимо экспортировать ниже переменных среды для записи в s3.

export AWS_SECRET_ACCESS_KEY = XXX

export AWS_ACCESS_KEY_ID = XXX

...