При чтении большого количества файлов орков из HDFS в каталоге spark не запускаются никакие задачи в течение некоторого времени, и я не вижу никаких задач, выполняемых в это время. Я использую команду ниже, чтобы прочитать конфигурации orc и spark.sql.
Какая искра возникает под капотом при выпуске spark.read.orc?
spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true
Также вместо непосредственного чтения файлов орков я попытался выполнить запрос Hive для того же набора данных. Но я не смог нажать предикат фильтра Где я должен установить ниже конфиг
"hive.optimize.ppd":"true",
"hive.optimize.ppd.storage":"true"
Подскажите, как лучше всего читать файлы orc из HDFS и параметры настройки?