Question

Я пытаюсь прочитать большой файл gz и затем вставить в таблицу.это занимает так много времени.

sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.gz").repartition( 1000).coalesce(1000).write.mode("overwrite").format("orc").insertInto(table)

Можно ли как-нибудь оптимизировать это, пожалуйста, помогите.

Примечание: я использовал случайное перераспределение и объединение

Avishek Bhattacharya · Answer 1 · 20 октября 2018

Вы не сможете оптимизировать чтение, если ваш файл находится в сжатом формате gzip.Сжатие gzip не разделяется в искре.Невозможно избежать чтения всего файла в узле драйвера искры.
Если вы хотите распараллелить, вам нужно сделать этот файл разделяемым на unzip, а затем обработать его.

Как обработать большой файл gz в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обработать большой файл gz в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов