Но можно ли использовать Hbase или Cassandra для анализа как в пакетном режиме, так и в режиме реального времени вместо Kafka?
Думайте о Кафке как о трубе в эти магазины.Это не замена, чтобы использовать «вместо» либо.HBase и Cassnadras являются хранилищами, и вам нужно «пакетировать» данные из них ... Вы бы использовали Kafka Streams (или Spark, Flink или мой любимый NiFi) для фактической (почти) обработки в реальном времени перед этими системами,
Я бы предложил использовать Kafka, а не использовать метрики «точка-точка» в Hadoop (или связанных инструментах).Я также рекомендовал бы использовать что-то, предназначенное для таких данных, например CrateDB или InfluxDB ... Вы можете использовать Kafka для загрузки в и Hadoop, и эти другие инструменты, которые лучше настроены для хранения таких наборов данных (что является преимуществом"буферизировать" данные сначала в Кафке)
имеет ли смысл записывать данные каждого входящего временного ряда в формате партера?
Конечно.Если вы хотите хранить много данных для большого пакетного анализа.Но если вы создаете окно для ежечасных потоков данных и выполняете, например, суммы и средние значения, тогда действительно ли вам нужно хранить каждую точку данных?
Если я использую Cassandra, как я могу это сделать?пакетный анализ?
Ну, я бы надеялся, так же, как вы делаете это сейчас.Запланировать запрос к базе данных?Надеюсь, все данные есть?(без опозданий)