Spark читает только частичный файл Gzip с кодировкой содержимого "Gzip". Как заставить Spark читать весь файл? - PullRequest
0 голосов
/ 13 июля 2020

Я читаю файл gzip из корзины GCS, используя spark.read.text ("gs: //../xyz.txt"). Я установил Content-Encoding как «Gzip» и переименовал расширение файла как txt в GCS. Установив Content-Encoding как "Gzip", он загружался в текстовом формате вместо формата gzip. Spark также может читать его как текстовый формат, но он читает только часть файла и читает до размера файла gzip и игнорирует остальную часть файла.

Например, если размер сжатого файла gzip составляет 2 ГБ, и несжатый размер - 5 ГБ. Spark читает только 2 ГБ файла и игнорирует остальные 3 ГБ. Есть ли способ сказать Spark прочитать весь файл?

...