У меня есть файл AA.zip, который снова содержит несколько файлов для ex aa.tar.gz, bb.tar.gz и т. Д.
Мне нужно прочитать эти файлы в spark scala, как я могу достичьчто ??
Единственная проблема здесь заключается в извлечении содержимого файла ZIP.
, поэтому ZIP-файлы в HDFS будут немного сложнее, потому что они плохо разбиваются, поэтому вам придется обрабатывать 1 или более zip-файлов на исполнителя.Это также один из немногих случаев, когда вам, вероятно, придется вернуться к SparkContext, потому что по какой-то причине поддержка двоичных файлов в Spark не так хороша.
SparkContext
https://spark.apache.org/docs/2.4.0/api/scala/index.html#org.apache.spark.SparkContext
естьreadBinaryFiles там, который дает вам доступ к двоичным данным zip, которые вы затем можете использовать с обычной обработкой ZIP из java или scala.
readBinaryFiles