Я включил перечисленные ниже конфигурации в мое приложение для потоковой передачи искры, но я не смог оценить выигрыш в производительности после установки этих параметров. Если кто-либо из вас знает какие-либо средства для проверки правильности работы векторизации как исключенной / включенной!
Примечание. Я использую Spark 2.3 и преобразовал все данные в своем приложении в стандартную версию формата orc 1.4.
sparkSqlCtx.setConf("spark.sql.orc.filterPushdown", "true")
sparkSqlCtx.setConf("spark.sql.orc.enabled", "true")
sparkSqlCtx.setConf("spark.sql.hive.convertMetastoreOrc", "true")
sparkSqlCtx.setConf("spark.sql.orc.char.enabled", "true")
sparkSqlCtx.setConf("spark.sql.orc.impl","native")
sparkSqlCtx.setConf("spark.sql.orc.enableVectorizedReader","true")