Question

Я знаю, что Google BigQuery - это хранилище данных, но считается ли Dataproc, Big Table, Pub / Sub хранилищем данных?Это сделало бы Hadoop хранилищем данных?

jmng · Answer 1 · 26 сентября 2018

«Хранилище данных» - это в основном концепция информационных систем, которая описывает централизованный и надежный источник данных (например, компании / бизнеса).

Из Википедия : «DW являются центральными хранилищамиинтегрированных данных из одного или нескольких разнородных источников. Они хранят текущие и исторические данные в одном месте, которые используются для создания аналитических отчетов для работников по всему предприятию. "

Что касается ваших вопросов, простой ответ будет следующим:

Google BigQuery - это механизм выполнения запросов (и / или обработки данных), который можно использовать в различных хранилищах данных.
Google BigTable - это служба базы данных, которую можно использоватьреализовать хранилище данных или любое другое хранилище данных.
Google DataProc - это сервис обработки данных, состоящий из общих компонентов обработки Hadoop, таких как MapReduce (или Spark, если вы считаете его частью Hadoop).
Hadoop - это платформа / платформа для хранения и обработки данных, состоящая изразличные компоненты (например, хранение данных через HDFS, обработка данных через MapReduce).Вы можете использовать платформу Hadoop для создания хранилища данных, например, используя MapReduce для обработки данных и загрузки их в файлы ORC, которые будут храниться в HDFS и к которым может обращаться Hive.Но было бы уместно называть его хранилищем данных, если это «централизованная единая версия правды о данных»;)

F10 · Answer 2 · 24 сентября 2018

Dataproc может работать как озеро данных, поскольку это кластер Hadoop, но его можно рассматривать как хранилище данных, поскольку некоторые инструменты могут обращаться к его информации.
BigTable хранит до петабайтов данныходнако он предназначен для приложений, которым требуется очень высокая пропускная способность и масштабируемость.Тем не менее, из-за высокой емкости хранилища и потоковой обработки / аналитики, его также можно рассматривать как хранилище данных.
Pub / Sub - это не хранилище данных, а служба публикации-подписки.

GCP Hadoop хранилище данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

GCP Hadoop хранилище данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы