почему крупные компании используют другие базы данных, а не HDFS? - PullRequest
1 голос
/ 18 марта 2019

я узнал, что hadoop используется для хранения данных (распределенных) по более низкой цене, тогда как мы можем хранить структурированные, неструктурированные и полуструктурированные данные в HDFS послеодин вопрос мне пришло в голову, что YouTube предоставляет видео и текстовые данные, поэтому они должны HDFS, но когда я гуглю это, и я был просто удивлен, что они используют Vitess, BigTable и MariaDB.поэтому мой вопрос заключается в том, почему HDFS не соответствует требованиям?почему бы не использовать HDFS?и как данные хранятся в youtube, например, комментарии пользователей к видео и т. д., используют ли они структурированную / неструктурированную или полуструктурированную схему для хранения всех различных типов данных.если я ошибаюсь, пожалуйста, дайте мне знать, каков правильный путь?

Ответы [ 2 ]

1 голос
/ 18 марта 2019

HDFS не соответствует требованиям? почему бы не использовать HDFS?

Hadoop / HDFS поддерживает только пакетную обработку. У него больше время отклика при чтении или записи данных. В некоторых случаях, когда минутный или секундный ответ является критически важным для бизнеса, хит обработки требует большой объем данных в реальном времени. Именно здесь компании, использующие сценарии использования в реальном времени, обычно предпочитают инструменты / приложения с низкой задержкой и высокой доступностью вместо прямой записи в hdfs.

Сказав, что Hadoop / HDFS действительно выполняет большинство требований к хранилищу данных в крупных компаниях. Вопрос в том, что вы пытаетесь решить, используя hadoop / hdfs. Если вы работаете в большой компании и хотите обрабатывать петабайты данных, обычно компании устанавливают большие кластеры, охватывающие несколько узлов, и затем используют spark / mapreduce для обработки этих данных, хранящихся в системе, в пакетном режиме. Существует множество вариантов использования, когда компании использовали предварительно обработанные кластеры больших данных (обычно hdfs, map-Reduce, Hive и т. Д.) Для обработки своих данных.

как данные хранятся в youtube, например, комментарии пользователей к видео и т. Д., Используют ли они структурированную / неструктурированную или полуструктурированную схему для хранения всех типов данных.

С увеличением количества узлов и кластеров в случае компаний, имеющих локальную систему hadoop, становится сложно управлять этими кластерами. Отсюда и облачные вычисления, в которых управление инфраструктурой осуществляется облачными провайдерами, а не компаниями, которые стремятся создавать решения для обработки данных. Это одна из главных причин, по которой крупные компании стремятся снизить стоимость своей инфраструктуры и перейти на облачные решения вместо использования локальной инфраструктуры. Облачные провайдеры, такие как GCP, AWS, имеют приложения, такие как Google BigTable, BigQuery и т. Д., Которые поддерживают хранение большого объема записей (масштаб PetaByte) и автоматическое масштабирование в случае, если вам нужно больше узлов / кластеров.

Платформа потокового видео, такая как youtube, netflix использует облачную инфраструктуру и приложения для потоковой передачи своего контента. Netflix использует AWS в качестве механизма хранения и обработки наряду с Cassandra и MySQL. Youtube, хотя я не совсем уверен, используйте облачное хранилище Google и Bigtable.

Надеюсь, это поможет:)

0 голосов
/ 18 марта 2019

Крупные компании объединяют различные технологии хранения данных, поскольку не существует универсального решения.

Hadoop и HDFS очень мощны для упругого хранения и обработки больших объемов структурированных и неструктурированных данных (байты Tera и байты Peta) распределенным способом с длительным временем вычислений (минута - единица измерения). Философия заключается в том, чтобы иметь возможность хранить данные любого типа в краткосрочной перспективе, а затем обрабатывать их позже и структурированным образом сохранять результаты в базах данных sql или nosql, чтобы представить их конечному пользователю. В этом случае hadoop будет использоваться вместе с другими типами баз данных.

Базы данных Nosql также являются очень хорошим решением для обработки большого объема данных, потому что по сравнению с классическими rdbms они обеспечивают распределение и масштабируемость, и, следовательно, возможность запрашивать большие объемы структурированных данных. Однако им не хватает возможности правильно управлять неструктурированными данными.

Компании, знающие, что данные, которые они собираются обрабатывать, вписываются в возможности хранения и обработки базы данных nosql или rdbms, предпочтут такие решения, а не hadoop, поскольку ими проще управлять, использовать и запрашивать.

Теперь Hadoop / HDFS - это низкоуровневое решение для хранения и обработки данных. Компаниям понадобится высокоуровневый интерфейс для хранения и обработки данных, и они предпочтут хорошо упакованные решения, работающие в облаке или локально специалистами по большим данным, не заботясь о сложной конфигурации и архитектуре кластера hadoop. Здесь мы найдем готовые к использованию и должным образом поддерживаемые решения для больших таблиц / запросов Google, Amazon Amazon Dynamo DB и Cloudera / Hortonworks.

...