У меня есть следующее требование
- Существует несколько устройств, выдающих данные в зависимости от конфигурации устройства. например, есть два устройства, которые генерируют данные с собственными интервалами, скажем, d1 производит каждые 15 минут и d2 производит каждые 30 минут
- Все эти данные будут отправлены Кафке
- Мне нужно использовать данные и выполнять расчеты для каждого устройства на основе значений, полученных за текущий час, и первого значения, полученного за следующий час. Например, если d1 генерирует данные для каждых 15 минут с 12:00 до 01:00, тогда вычисление основывается на значениях, полученных за этот час, и на первом значении, полученном с 1:00 до 02:00. Если значение не создается с 1:00 AM до 2:00 AM, тогда мне нужно рассмотреть данные с 12:00 AM до 1:00 AM и сохранить их в хранилище данных (временной ряд)
- Таким образом, количество устройств будет n, и каждое устройство имеет свою конфигурацию. В приведенном выше сценарии устройства d1 и d2 выдают данные за каждый 1 час. Могут быть и другие устройства, которые будут генерировать данные каждые 3 часа, 6 часов.
В настоящее время это требование выполняется на Java. Поскольку количество устройств увеличивается, так как вычисления увеличиваются, я хотел бы знать, может ли Spark / Spark Streaming быть применена к этому сценарию? Любыми статьями, касающимися такого рода требований, можно поделиться, так что это будет очень полезно.