Как обработать большой файл gz в Spark - PullRequest
0 голосов
/ 20 октября 2018

Я пытаюсь прочитать большой файл gz и затем вставить в таблицу.это занимает так много времени.

sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.gz").repartition( 1000).coalesce(1000).write.mode("overwrite").format("orc").insertInto(table)

Можно ли как-нибудь оптимизировать это, пожалуйста, помогите.

Примечание: я использовал случайное перераспределение и объединение

1 Ответ

0 голосов
/ 20 октября 2018

Вы не сможете оптимизировать чтение, если ваш файл находится в сжатом формате gzip.Сжатие gzip не разделяется в искре.Невозможно избежать чтения всего файла в узле драйвера искры.
Если вы хотите распараллелить, вам нужно сделать этот файл разделяемым на unzip, а затем обработать его.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...