HDFS не соответствует требованиям? почему бы не использовать HDFS?
Hadoop / HDFS поддерживает только пакетную обработку. У него больше время отклика при чтении или записи данных. В некоторых случаях, когда минутный или секундный ответ является критически важным для бизнеса, хит обработки требует большой объем данных в реальном времени. Именно здесь компании, использующие сценарии использования в реальном времени, обычно предпочитают инструменты / приложения с низкой задержкой и высокой доступностью вместо прямой записи в hdfs.
Сказав, что Hadoop / HDFS действительно выполняет большинство требований к хранилищу данных в крупных компаниях. Вопрос в том, что вы пытаетесь решить, используя hadoop / hdfs. Если вы работаете в большой компании и хотите обрабатывать петабайты данных, обычно компании устанавливают большие кластеры, охватывающие несколько узлов, и затем используют spark / mapreduce для обработки этих данных, хранящихся в системе, в пакетном режиме. Существует множество вариантов использования, когда компании использовали предварительно обработанные кластеры больших данных (обычно hdfs, map-Reduce, Hive и т. Д.) Для обработки своих данных.
как данные хранятся в youtube, например, комментарии пользователей к видео и т. Д., Используют ли они структурированную / неструктурированную или полуструктурированную схему для хранения всех типов данных.
С увеличением количества узлов и кластеров в случае компаний, имеющих локальную систему hadoop, становится сложно управлять этими кластерами. Отсюда и облачные вычисления, в которых управление инфраструктурой осуществляется облачными провайдерами, а не компаниями, которые стремятся создавать решения для обработки данных. Это одна из главных причин, по которой крупные компании стремятся снизить стоимость своей инфраструктуры и перейти на облачные решения вместо использования локальной инфраструктуры.
Облачные провайдеры, такие как GCP, AWS, имеют приложения, такие как Google BigTable, BigQuery и т. Д., Которые поддерживают хранение большого объема записей (масштаб PetaByte) и автоматическое масштабирование в случае, если вам нужно больше узлов / кластеров.
Платформа потокового видео, такая как youtube, netflix использует облачную инфраструктуру и приложения для потоковой передачи своего контента. Netflix использует AWS в качестве механизма хранения и обработки наряду с Cassandra и MySQL. Youtube, хотя я не совсем уверен, используйте облачное хранилище Google и Bigtable.
Надеюсь, это поможет:)