Привет, у меня есть данные 90 ГБ. В файле CSV я загружаю эти данные в одну временную таблицу, а затем из временной таблицы в таблицу или c, используя команду select insert, но для преобразования и загрузки данных в формат или c. 4 часа искры sql. Есть ли какая-либо техника оптимизации, которую я могу использовать, чтобы сократить это время. На данный момент я не использую никакой техники оптимизации, я просто использую spark sql и загружаю данные из CSV-файла в таблицу (textformat), а затем из этой временной таблицы в таблицу или c (с использованием select insert) с использованием spark submit как:
spark-submit \
--class class-name\
--jar file
или я могу добавить любой дополнительный параметр в spark submit для улучшение оптимизации.
scala код (образец):
All Imports
object demo {
def main(args: Array[String]) {
//sparksession with enabled hivesuppport
var a1=sparksession.sql("load data inpath 'filepath' overwrite into table table_name")
var b1=sparksession.sql("insert into tablename (all_column) select 'ALL_COLUMNS' from source_table")
}
}