Проблема с Flink StreamingFileSink <GenericRecord>и Azure Datalake Gen 2 - PullRequest
0 голосов
/ 14 июля 2020

У меня проблема с попыткой погрузить файл в Azure Datalake Gen 2 с StreamingFileSink от Flink, я использую core-site. xml с Had oop Bulk Format Я пытаюсь скопировать в мой datalake в формате abfss: // (также попробуйте с abfs: //)

java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
[job-playground-job-cluster-0 flink-job-cluster]        at org.apache.flink.runtime.fs.hdfs.HadoopRecoverableWriter.<init>(HadoopRecoverableWriter.java:61) ~[flink-dist_2.11-1.11.0.jar:1.11.0]
[job-playground-job-cluster-0 flink-job-cluster]        at org.apache.flink.runtime.fs.hdfs.HadoopFileSystem.createRecoverableWriter(HadoopFileSystem.java:202) ~[flink-dist_2.11-1.11.0.jar:1.11.0]
[job-playground-job-cluster-0 flink-job-cluster]        at org.apache.flink.core.fs.SafetyNetWrapperFileSystem.createRecoverableWriter(SafetyNetWrapperFileSystem.java:69) ~[flink-dist_2.11-1.11.0.jar:1.11.0]
[job-playground-job-cluster-0 flink-job-cluster]        at org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink$BulkFormatBuilder.createBuckets(StreamingFileSink.java:371) ~[flink-dist_2.11-1.11.0.jar:1.11.0]

Я прочитал официальную документацию и погрузился в библиотеку, и проблемы здесь: https://github.com/apache/flink/blob/master/flink-filesystems/flink-hadoop-fs/src/main/java/org/apache/flink/runtime/fs/hdfs/HadoopRecoverableWriter.java#L60

public HadoopRecoverableWriter(org.apache.hadoop.fs.FileSystem fs) {
        this.fs = checkNotNull(fs);

        // This writer is only supported on a subset of file systems
        if (!"hdfs".equalsIgnoreCase(fs.getScheme())) {
            throw new UnsupportedOperationException(
                    "Recoverable writers on Hadoop are only supported for HDFS");
        }

Это мой основной сайт. xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  <property>
    <name>fs.azure.account.auth.type.ADLS_ACCOUNT_NAME.dfs.core.windows.net</name>
    <value>SharedKey</value>
    <description>
    It is inferred by the url
    </description>
  </property>

  <property>
    <name>fs.azure.account.key.ADLS_ACCOUNT_NAME.dfs.core.windows.net</name>
    <value>ADLS_KEY</value>
    <description>
    </description>
  </property>

  <property>
    <name>fs.azure.createRemoteFileSystemDuringInitialization</name>
    <value>true</value>
  </property>

  <property>
    <name>fs.azure.always.use.https</name>
    <value>true</value>
  </property>
  
</configuration>

Кто-нибудь прошел эту проблему или проблема с расширением abfss / abfs.

1 Ответ

0 голосов
/ 11 августа 2020

StreamingFileSink не еще поддерживает Azure Data Lake.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...