Я верю, что умные источники данных тоже могут быть такими.По крайней мере, на слайдах с 41 по 42 вы можете увидеть упоминания об интеллектуальных источниках данных и логотипах, включая эти источники (обратите внимание, что логотипа mongodb не существует, но я считаю, что он поддерживает то же самое https://www.mongodb.com/products/spark-connector, см. Раздел «Использование силы»MongoDB ") из презентации Databricks здесь: https://www.slideshare.net/databricks/bdtc2
Мне также удалось найти некоторую информацию, подтверждающую, что MongoDB является интеллектуальным источником данных, поскольку он используется в качестве примера в" Освоении Apache Spark 2 ".x "book:
" Predicate push-up на интеллектуальных источниках данных Интеллектуальные источники данных - это те, которые поддерживают обработку данных непосредственно в их собственном механизме, где находятся данные, - предотвращая отправку ненужных данных в Apache Spark..
В качестве примера приведена реляционная база данных SQL с интеллектуальным источником данных. Рассмотрим таблицу с тремя столбцами: column1, column2 и column3, где третий столбец содержит временную метку. Кроме того, рассмотрим запрос ApacheSparkSQL с использованиемэтот источник данных JDBC, но только доступ к подмножеству столбцовd строк на основе проекции и выбора.Следующий SQL-запрос является примером такой задачи:
выберите столбец 2, столбец 3 на вкладке, где столбец 3> 1418812500
При работе на интеллектуальном источнике данных используется локальность данных, позволяяБаза данных SQL выполняет фильтрацию строк на основе отметки времени и удаления column1.Давайте рассмотрим практический пример того, как это реализовано в коннекторе Apache Spark MongoDB "