Spark структурированная потоковая передача - ошибка при сохранении данных в Azure datalake gen1 - PullRequest
0 голосов
/ 19 октября 2019

Я застрял в одной проблеме и сейчас пытаюсь найти решение. Эта проблема связана с сохранением потоковых данных в Azure Datalake. Ниже приведено исключение, которое я получаю при хранении данных

    Exception in thread "main" org.apache.hadoop.fs.InvalidPathException: Invalid path name Wrong FS: adl://<azure-data-lake>.azuredatalakestore.net/eventstore/_spark_metadata, expected: adl://<azure-data-lake>.azuredatalakestore.net/
    at org.apache.hadoop.fs.AbstractFileSystem.checkPath(AbstractFileSystem.java:383)
    at org.apache.hadoop.fs.DelegateToFileSystem.getFileStatus(DelegateToFileSystem.java:110)
    at org.apache.hadoop.fs.FileContext$14.next(FileContext.java:1120)
    at org.apache.hadoop.fs.FileContext$14.next(FileContext.java:1116)
    at org.apache.hadoop.fs.FSLinkResolver.resolve(FSLinkResolver.java:90)
    at org.apache.hadoop.fs.FileContext.getFileStatus(FileContext.java:1116)
    at org.apache.hadoop.fs.FileContext$Util.exists(FileContext.java:1581)
    at org.apache.spark.sql.execution.streaming.HDFSMetadataLog$FileContextManager.exists(HDFSMetadataLog.scala:390)
    at org.apache.spark.sql.execution.streaming.HDFSMetadataLog.<init>(HDFSMetadataLog.scala:65)
    at org.apache.spark.sql.execution.streaming.CompactibleFileStreamLog.<init>(CompactibleFileStreamLog.scala:46)
    at org.apache.spark.sql.execution.streaming.FileStreamSinkLog.<init>(FileStreamSinkLog.scala:85)
    at org.apache.spark.sql.execution.streaming.FileStreamSink.<init>(FileStreamSink.scala:95)
    at org.apache.spark.sql.execution.datasources.DataSource.createSink(DataSource.scala:316)
    at org.apache.spark.sql.streaming.DataStreamWriter.start(DataStreamWriter.scala:293)

Ниже приведены мои зависимости pom

    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.3.0</version>
    </dependency>

    <dependency> <!-- Spark dependency -->
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.11</artifactId>
        <version>2.3.0</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/com.microsoft.azure/azure-eventhubs-spark -->
    <dependency>
        <groupId>com.microsoft.azure</groupId>
        <artifactId>azure-eventhubs-spark_2.11</artifactId>
        <version>2.3.12</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_2.11</artifactId>
        <version>2.4.3</version>
    </dependency>

    <dependency>
        <groupId>com.microsoft.azure</groupId>
        <artifactId>azure-eventhubs</artifactId>
        <version>2.2.0</version>
    </dependency>

    <dependency>
        <groupId>com.microsoft.azure</groupId>
        <artifactId>azure-data-lake-store-sdk</artifactId>
        <version>2.2.8</version>
    </dependency>

    <dependency>
        <groupId>com.microsoft.azure</groupId>
        <artifactId>azure-eventhubs-eph</artifactId>
        <version>2.4.0</version>
    </dependency>

Любая помощь, касающаяся этого, будет оценена.

1 Ответ

0 голосов
/ 23 октября 2019

Наконец, я могу решить эту проблему, добавив соответствующие зависимости maven.
Я использовал следующие зависимости:

  1. hadoop-common - v3.8.1
  2. azure-data-lake-store-sdk - v2.3.7
  3. hadoop-azure-datalake v3.2.1

Надеюсь, это поможет другим решить эту проблему.

Спасибо Avinash

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...