Как Java находит банки с искрами, Hadoop и AWS в Intellij? - PullRequest
0 голосов
/ 27 сентября 2018

Я использую искровое приложение на IntelliJ на Java.Я добавил в pom.xml зависимости spark, Hadoop и AWS, но каким-то образом учетные данные AWS не загружаются.

Я получаю точную ошибку Caused by: com.amazonaws.AmazonClientException: No AWS Credentials provided by BasicAWSCredentialsProvider EnvironmentVariableCredentialsProvider InstanceProfileCredentialsProvider : com.amazonaws.SdkClientException: Unable to load credentials from service endpoint

Ниже приведены мои .java и pomXML-файлы.

SparkSession spark  = SparkSession
                    .builder()
                    .master("local") .config("spark.hadoop.fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")            .config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
                    .config("spark.hadoop.fs.s3a.awsAccessKeyId", AWS_KEY)
                    .config("spark.hadoop.fs.s3a.awsSecretAccessKey", AWS_SECRET_KEY)
                    .getOrCreate();

            JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());
            Dataset<Row> dF = spark.read().load("s3a://bucket/abc.parquet");

Вот мой pom.xml

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.3.2</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.11</artifactId>
        <version>2.3.2</version>
    </dependency>
    <dependency>
        <groupId>com.amazonaws</groupId>
        <artifactId>aws-java-sdk</artifactId>
        <version>1.11.417</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-aws</artifactId>
        <version>3.1.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>3.1.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>3.1.1</version>
    </dependency>
</dependencies>

Я застрял в этом некоторое время и перепробовал все доступные решения.Я добавил экспорт ключей AWS в мою среду.

Есть ли другой способ указать jars или ключи для java, учитывая, что нет java spark shell, такого как python или Scala, и pom.xml - единственный способ?

1 Ответ

0 голосов
/ 28 сентября 2018

Обнаружено, что необходимо добавлять кредиты AWS только в SparkContext, а не в SparkSession.

JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());
sc.hadoopConfiguration().set("fs.s3a.access.key", AWS_KEY);
sc.hadoopConfiguration().set("fs.s3a.secret.key", AWS_SECRET_KEY);
...