Я пытаюсь прочитать конфигурационный файл в spark read.textfile, который в основном содержит мой список таблиц. Моя задача - перебрать список таблиц и конвертировать Avro в формат ORC. пожалуйста, найдите мой фрагмент кода ниже, который сделает логику.
val tableList = spark.read.textFile('tables.txt')
tableList.collect().foreach(tblName => {
val df = spark.read.format("avro").load(inputPath+ "/" + tblName)
df.write.format("orc").mode("overwrite").save(outputPath+"/"+tblName)})
Пожалуйста, найдите мои конфигурации ниже
DriverMemory: 4 ГБ
ExecutorMemory: 10 ГБ
NoOfExecutors: 5
Размер входных данных: 45 ГБ
Мой вопрос здесь, это будет выполняться в Executor или Driver? Это выбросит Ошибка памяти? Пожалуйста, прокомментируйте ваши предложения.
val tableList = spark.read.textFile('tables.txt')
tableList.collect().foreach(tblName => {
val df = spark.read.format("avro").load(inputPath+ "/" + tblName)
df.write.format("orc").mode("overwrite").save(outputPath+"/"+tblName)}
)