SparkSQL: есть ли функция «filterPushdown» для источника данных jdbc - PullRequest
0 голосов
/ 26 декабря 2018

Я использую Spark 2.3 и загружаю данные из таблиц MySQL.

Я хотел бы знать, есть ли функция «filterPushdown», аналогичная файлам паркета.

У меня естьбольшая таблица с миллионами строк, из которых мне нужно загрузить часть данных, соответствующую определенным ключам, а также отметку времени> certian_timestamp.

"where key_col in (34,35, .. ) and ts > 1539688500000"

После этого мне нужно объединить этот набор данных с другой небольшой таблицей.

Могу ли я выполнить эти операции (фильтрация и объединение) в самой базе данных, используя «filterPushdown» и что-то вроде «joinPushdown» ??(если существует)

1 Ответ

0 голосов
/ 26 декабря 2018

Да, фильтр Pushdown доступен для источников JDBC, но только для предложения Where.

Вы можете проверить это в https://docs.databricks.com/spark/latest/data-sources/sql-databases.html#push-down-a-query-to-the-database-engine

Если для вашей базы данных это не работает .. Используйте следующеереализовать это для вас.

http://blog.madhukaraphatak.com/spark-datasource-v2-part-5/

Надеюсь, это поможет:)

Ура!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...