Динамическая фильтрация в Spark - PullRequest
0 голосов
/ 09 октября 2018

Я хотел бы понять, как работает динамическая фильтрация.Что я знаю об этом, так это, скажем, есть 2 таблицы A (с миллионами строк) и B (с 10 тысячами строк).Теперь, выполняя объединение между A и B, если к B применяется предикат, то с помощью динамической фильтрации мы можем избежать полного сканирования для A. Это помогает уменьшить перетасовку данных.Мои вопросы:

  • 1) Это происходит автоматически в искре или мне нужно включить какое-либо свойство?
  • 2) Есть ли способ, с помощью которого я должен предоставить свои фильтры перед выполнением sql?
  • 3) Есть ли недостатки этого подхода?
  • 4) Любая ссылка, которая дает объяснение по этому поводу?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...