Я пытаюсь прочитать большой файл gz и затем вставить в таблицу.это занимает так много времени.
sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.gz").repartition( 1000).coalesce(1000).write.mode("overwrite").format("orc").insertInto(table)
Можно ли как-нибудь оптимизировать это, пожалуйста, помогите.
Примечание: я использовал случайное перераспределение и объединение