Я пытаюсь вставить данные раздела из одной таблицы (текстовый формат) в другую таблицу (формат паркета), используя платформу spark.Объем данных составляет около 20 ГБ, и для этого я использую следующую конфигурацию:
master = пряжа
клиент режима развертывания
память драйвера = 3g
память исполнителя = 15 ГБ
число исполнителей = 50
ядра исполнителя = 4
Я использую приведенный ниже фрагмент кода, чтобы сделать это:
val df = spark.sql("select * from table1")
df.repartition(70).write().mode("append").format("parquet").insertInto("table2")
Каждый раз, когда я пытаюсь выполнить это, после выполнения определенных задач, задание завершается с ошибкой пространства Java-кучи.
Исходя из указанного мной размера данных и конфигурации искры, я не уверен, что что-то естьчто мне здесь не хватает из-за чего работа не получается.Любая помощь в этом направлении будет принята с благодарностью.