GCP Hadoop хранилище данных? - PullRequest
0 голосов
/ 24 сентября 2018

Я знаю, что Google BigQuery - это хранилище данных, но считается ли Dataproc, Big Table, Pub / Sub хранилищем данных?Это сделало бы Hadoop хранилищем данных?

Ответы [ 2 ]

0 голосов
/ 26 сентября 2018

«Хранилище данных» - это в основном концепция информационных систем, которая описывает централизованный и надежный источник данных (например, компании / бизнеса).

Из Википедия : «DW являются центральными хранилищамиинтегрированных данных из одного или нескольких разнородных источников. Они хранят текущие и исторические данные в одном месте, которые используются для создания аналитических отчетов для работников по всему предприятию. "

Что касается ваших вопросов, простой ответ будет следующим:

  • Google BigQuery - это механизм выполнения запросов (и / или обработки данных), который можно использовать в различных хранилищах данных.
  • Google BigTable - это служба базы данных, которую можно использоватьреализовать хранилище данных или любое другое хранилище данных.
  • Google DataProc - это сервис обработки данных, состоящий из общих компонентов обработки Hadoop, таких как MapReduce (или Spark, если вы считаете его частью Hadoop).
  • Hadoop - это платформа / платформа для хранения и обработки данных, состоящая изразличные компоненты (например, хранение данных через HDFS, обработка данных через MapReduce).Вы можете использовать платформу Hadoop для создания хранилища данных, например, используя MapReduce для обработки данных и загрузки их в файлы ORC, которые будут храниться в HDFS и к которым может обращаться Hive.Но было бы уместно называть его хранилищем данных, если это «централизованная единая версия правды о данных»;)
0 голосов
/ 24 сентября 2018
  • Dataproc может работать как озеро данных, поскольку это кластер Hadoop, но его можно рассматривать как хранилище данных, поскольку некоторые инструменты могут обращаться к его информации.
  • BigTable хранит до петабайтов данныходнако он предназначен для приложений, которым требуется очень высокая пропускная способность и масштабируемость.Тем не менее, из-за высокой емкости хранилища и потоковой обработки / аналитики, его также можно рассматривать как хранилище данных.
  • Pub / Sub - это не хранилище данных, а служба публикации-подписки.
...