Как распаковать и прочитать файл, содержащий несколько сжатых файлов в спарк - PullRequest
0 голосов
/ 20 ноября 2018

У меня есть файл AA.zip, который снова содержит несколько файлов для ex aa.tar.gz, bb.tar.gz и т. Д.

Мне нужно прочитать эти файлы в spark scala, как я могу достичьчто ??

Единственная проблема здесь заключается в извлечении содержимого файла ZIP.

1 Ответ

0 голосов
/ 20 ноября 2018

, поэтому ZIP-файлы в HDFS будут немного сложнее, потому что они плохо разбиваются, поэтому вам придется обрабатывать 1 или более zip-файлов на исполнителя.Это также один из немногих случаев, когда вам, вероятно, придется вернуться к SparkContext, потому что по какой-то причине поддержка двоичных файлов в Spark не так хороша.

https://spark.apache.org/docs/2.4.0/api/scala/index.html#org.apache.spark.SparkContext

естьreadBinaryFiles там, который дает вам доступ к двоичным данным zip, которые вы затем можете использовать с обычной обработкой ZIP из java или scala.

...