Глубокое хранение в Hadoop - PullRequest
0 голосов
/ 08 марта 2019

Просматривая разные столбчатые базы данных в экосистеме Hadoop, я натолкнулся на термин «Deep Storage». Я не могу понять, что означает глубокое хранение. Означает ли глубокое хранение Data Lake? Отличается ли он от данных, хранящихся в HDFS?

1 Ответ

0 голосов
/ 11 марта 2019

В настройке Druid Deep Storage - это место, откуда данные (сегменты) могут быть надежно извлечены, например HDFS, S3, Google Cloud и т. Д. (Есть плагин для коннекторов).

Узел Druid Historical извлекает данные из этого глубокого хранилища во время начальной загрузки и перебалансировки.

Аналогично, узлы MiddleManager, узлы реального времени, задачи индексирования записывают данные в Deep Storage и делают данные доступными для кластера..

Таким образом, нет сегмента данных между узлами, Druid использует Deep Storage в качестве источника правды.

...