Представление HDFS, очевидно, не в режиме реального времени. Mem SQL или Druid / Imply предлагают гораздо больше в режиме реального времени приема из Kafka
. Вам нужны исторические данные для выполнения свертки и агрегации. Таблица может кэшировать наборы данных, но она не хранит постоянно сама. Поэтому вам нужно немного памяти , и вы решили использовать HDFS, а не базу данных.
Примечание: Hive / Presto можно читать напрямую с Kafka. Поэтому вам даже не нужна Spark.
Если вы хотите выполнить прокатку агрегатов из Kafka и сделать ее запрашиваемой, вместо нее можно использовать K SQL или написать собственное решение Kafka Streams