Какая разница между озером данных с HDFS или S3 в AWS? - PullRequest
0 голосов
/ 11 июля 2019

Мне нужно создать озеро данных на AWS, но я не знаю, чем именно S3 отличается от HDFS? Я нашел некоторые ответы в интернете, но до сих пор не понимаю реальной разницы! Мне также нужно знать, если у кого-то есть архитектура озера данных HDFS и S3 в AWS?

1 Ответ

1 голос
/ 12 июля 2019

HDFS доступен только для кластера Hadoop, в котором он существует. Если кластер выключится или прекратит работу, данные в HDFS исчезнут.

Данные в Amazon S3:

  • Доступен в любое время (его нельзя отключить)
  • Доступно для нескольких кластеров
  • Доступен для других сервисов AWS , таких как Amazon Athena (что означает «Presto как услуга», поэтому вам может даже не понадобиться кластер Hadoop)
  • Имеет несколько классов хранения , например, для хранения редко используемых данных с меньшими затратами
  • Не имеет ограничений хранилища (хотя HDFS ограничено хранилищем, доступным в кластере Hadoop)
...