У меня есть вопрос относительно фильтрации в Spark, когда вы не включаете столбцы разделов в фильтр.
Представьте, что у меня есть следующие данные, разделенные по дате:
path/date=20200721/part-0000.parquet
part-0001.parquet
part-0002.parquet
path/date=20200722/part-0000.parquet
part-0001.parquet
part-0002.parquet
...
И у данных есть один столбец с именем «действие», около 30% данных которого имеют значение 0, а остальная часть данных - 1
Если я запустил следующее:
spark.read.parquet("s3a://path").filter("action = 0")
Должен ли Spark отображать и сканировать все файлы, расположенные по «пути» от источника? Или есть какая-то pushdown-фильтрация? Или Spark применяет только выталкивающий фильтр, если в фильтре присутствует столбец раздела?
Спасибо.