Производительность чтения орков Apache Spark при чтении большого количества маленьких файлов - PullRequest
0 голосов
/ 31 октября 2018

При чтении большого количества файлов орков из HDFS в каталоге spark не запускаются никакие задачи в течение некоторого времени, и я не вижу никаких задач, выполняемых в это время. Я использую команду ниже, чтобы прочитать конфигурации orc и spark.sql.

Какая искра возникает под капотом при выпуске spark.read.orc?

spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true

Также вместо непосредственного чтения файлов орков я попытался выполнить запрос Hive для того же набора данных. Но я не смог нажать предикат фильтра Где я должен установить ниже конфиг "hive.optimize.ppd":"true", "hive.optimize.ppd.storage":"true"

Подскажите, как лучше всего читать файлы orc из HDFS и параметры настройки?

...