Что такое умные источники данных в спарк? - PullRequest
0 голосов
/ 22 ноября 2018

Я хотел знать, какие источники данных можно назвать «умными» в искре.Согласно книге «Освоение Apache Spark 2.x», любой источник данных можно назвать умным, если spark может обрабатывать данные на стороне источника данных.Примеры источников JDBC.

Я хочу знать, можно ли считать MongoDB, Cassandra и паркет умными источниками данных?

1 Ответ

0 голосов
/ 09 декабря 2018

Я верю, что умные источники данных тоже могут быть такими.По крайней мере, на слайдах с 41 по 42 вы можете увидеть упоминания об интеллектуальных источниках данных и логотипах, включая эти источники (обратите внимание, что логотипа mongodb не существует, но я считаю, что он поддерживает то же самое https://www.mongodb.com/products/spark-connector, см. Раздел «Использование силы»MongoDB ") из презентации Databricks здесь: https://www.slideshare.net/databricks/bdtc2

Мне также удалось найти некоторую информацию, подтверждающую, что MongoDB является интеллектуальным источником данных, поскольку он используется в качестве примера в" Освоении Apache Spark 2 ".x "book:

" Predicate push-up на интеллектуальных источниках данных Интеллектуальные источники данных - это те, которые поддерживают обработку данных непосредственно в их собственном механизме, где находятся данные, - предотвращая отправку ненужных данных в Apache Spark..

В качестве примера приведена реляционная база данных SQL с интеллектуальным источником данных. Рассмотрим таблицу с тремя столбцами: column1, column2 и column3, где третий столбец содержит временную метку. Кроме того, рассмотрим запрос ApacheSparkSQL с использованиемэтот источник данных JDBC, но только доступ к подмножеству столбцовd строк на основе проекции и выбора.Следующий SQL-запрос является примером такой задачи:

выберите столбец 2, столбец 3 на вкладке, где столбец 3> 1418812500

При работе на интеллектуальном источнике данных используется локальность данных, позволяяБаза данных SQL выполняет фильтрацию строк на основе отметки времени и удаления column1.Давайте рассмотрим практический пример того, как это реализовано в коннекторе Apache Spark MongoDB "

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...