Psybelo 29 сентября 2019 76

Обработка сжатых файлов, которые сохранены HDFS: BZIP2, GZIP, ZIP

Psybelo / 29 сентября 2019

У меня есть файл в формате CSV, хранящийся в HDFS, и серия сжатых файлов, полученных в результате сжатия этого файла:

fic.csv размером 3,275,880 байт,
fic.csv.bz2 в формате BZIP2 размером 185,419 байт,

fic.csv.gz в формате GZIP размером 363,751 байт,

fic.csv.zip в формате ZIP размером 356,619 байт.

Я запускаю приложение с помощью spark-submit с параметром spark.default.parallelism = 20

1) Какая процедура будет МЕДЛЕННОЙ?Самый быстрый ?Почему?

2) Сколько искровых разделов будет создано для файла "fic.csv"?

3) Сколько искровых разделов для файла "fic.csv.bz2"?

4) Сколько искровых разделов для файла "fic.csv.gz"?

5) Сколько искровых разделов для файла "fic.csv.zip"?

...