Как распаковать файлы Gzip из EventHub с помощью Spark Structured Streaming - PullRequest
0 голосов
/ 19 марта 2020

Есть ли способ прочитать gzip-файлы из Eventhub и распаковать их с помощью потоковой структурированной искры, хотите сохранить несжатый json в ADLS, используя Spark Structured Streaming Trigger один раз.

Я получаю данные NULL, когда я попытался прочитать данные EventHub, которые в настоящее время сжимаются с помощью Spark структурированной потоковой передачи. Мне нужно было бы немного логики c, как распаковать данные EventHub во время чтения.

Любая помощь будет принята с благодарностью.

1 Ответ

0 голосов
/ 20 марта 2020

Я смог достичь этого, написав scala UDF. Надеюсь, что это может помочь кому-то в будущем.

 val decompress = udf{compressed: Array[Byte] => {
      val inputStream = new GZIPInputStream(new ByteArrayInputStream(compressed))
      scala.io.Source.fromInputStream(inputStream).mkString
    }}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...