Druid поддерживает прием в реальном времени через Kafka Streaming, и данные доступны для немедленного запроса, поэтому он считается хранилищем данных в реальном времени.
Druid также поддерживает пакетный прием, как вы упомянули, используя Hive и Spark.
Вот более подробная информация о Apache Druid :
Apache druid - это хранилище данных OLAP, разработанное для обеспечения производительности запросов в секунду при загрузке данных в режиме реального времени или в пакетном режиме.
Способы получения данных в друид
Проглатывание в реальном времени - Друид может использовать темы Кафки для загрузки данных в режиме реального времени.
Batch Ingestion - Друид использует Hive и Spark для чтения наборов данных из HDFS.В этом случае это не реальное время, но есть варианты использования, которые не обязательно должны быть в реальном времени, а просто требуют более быстрого времени отклика для специальных запросов.
Где друид отлично подходит:
Когда вы не должны учитывать друида
Горячие отрасли / Приложение для друидов