Почему spark.sql.orc.filterPushdown значение по умолчанию ложно в свече?
spark.sql.orc.filterPushdown
Имеет ли значение spark.sql.orc.filterPushdown, равное true, некоторое снижение производительности или есть некоторые ограничения в функциях чтения орка в spark?
true
Это может быть связано с тем, что спарк-интеграция со старым форматом orc была не очень хороша, и в некоторых случаях вызывала проблемы. Большинство из этих проблем, кажется, исправлены в новом формате ORC (имеет лучшую векторизацию) и spark 2.
https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html https://issues.apache.org/jira/browse/SPARK-14962 https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html