Как ускорить WholeStageCodegen в Spark SQL Query? - PullRequest
0 голосов
/ 25 марта 2020

Это заняло около 2 минут для одного файла 248 МБ. 2 файла ~ 5 минут Как настроить или увеличить производительность.

Инициализировать искру с помощью:

.setMaster(numCores)
.set("spark.driver.host", "localhost")
.set("spark.executor.cores","2")
.set("spark.num.executors","2")
.set("spark.executor.memory", "4g")
.set("spark.dynamicAllocation.enabled", "true")
.set("spark.dynamicAllocation.minExecutors","2")
.set("spark.dynamicAllocation.maxExecutors","2")
.set("spark.ui.enabled","true")
.set("spark.sql.shuffle.partitions",defaultPartitions)

joinedDf = upperCaseLeft.as("l")
          .join(upperCaseRight.as("r"), caseTransformedKeys, "full_outer")
          .select(compositeKeysCol ::: nonKeyCols.map(col => mapHelper(col,toleranceValue,caseSensitive)): _*)

data = joinedDf.take(1000)

https://i.stack.imgur.com/oeYww.png

...