«Хранилище данных» - это в основном концепция информационных систем, которая описывает централизованный и надежный источник данных (например, компании / бизнеса).
Из Википедия : «DW являются центральными хранилищамиинтегрированных данных из одного или нескольких разнородных источников. Они хранят текущие и исторические данные в одном месте, которые используются для создания аналитических отчетов для работников по всему предприятию. "
Что касается ваших вопросов, простой ответ будет следующим:
- Google BigQuery - это механизм выполнения запросов (и / или обработки данных), который можно использовать в различных хранилищах данных.
- Google BigTable - это служба базы данных, которую можно использоватьреализовать хранилище данных или любое другое хранилище данных.
- Google DataProc - это сервис обработки данных, состоящий из общих компонентов обработки Hadoop, таких как MapReduce (или Spark, если вы считаете его частью Hadoop).
- Hadoop - это платформа / платформа для хранения и обработки данных, состоящая изразличные компоненты (например, хранение данных через HDFS, обработка данных через MapReduce).Вы можете использовать платформу Hadoop для создания хранилища данных, например, используя MapReduce для обработки данных и загрузки их в файлы ORC, которые будут храниться в HDFS и к которым может обращаться Hive.Но было бы уместно называть его хранилищем данных, если это «централизованная единая версия правды о данных»;)