Мне нужно иметь два динамических совместно используемых кэша (в основном, типа hashmap) для получения некоторой информации в задании потоковой структурированной обработки.Кэши являются динамическими в том смысле, что в одной и той же партии исполнители искры могут обновлять кэши, а также читать их.Согласно моей информации, spark не предоставляет никакого механизма для обмена динамическими данными между всеми исполнителями.
Есть ли способ сохранить кэш-память в потоковом режиме?
Если нет, то какой внешний источник БД обеспечит наилучшую производительность в этом случае.Я исследовал несколько нет данных, таких как hbase, cassandra и т. Д.
Размеры кэшей составят около 1 миллиона.Количество записей, обрабатываемых в каждой партии потоковой передачи, составляет около ~ 100 тыс.
.