Как присоединиться к потоку с данными предыдущего окна? - PullRequest
2 голосов
/ 14 июля 2020

Каждые 15 минут мы получаем несколько миллионов записей. Как лучше всего объединить текущий набор записей с предыдущим набором записей для тех же идентификаторов в искровой структурированной потоковой передаче? Как повторно инициализировать предыдущее состояние после перезагрузки? Мы пробовали HBase сохранить предыдущее состояние, но это оказалось очень медленным. Если мы используем произвольные сеансы искры, как повторно инициализировать предыдущее состояние после перезапуска? Сейчас мы реализовали это в потоках Kafka. Но хочу знать, есть ли способ реализовать в искровой структурированной потоковой передаче.

1 Ответ

1 голос
/ 15 июля 2020

Как лучше всего объединить текущий набор записей с предыдущим набором записей для тех же идентификаторов в искровой структурированной потоковой передаче?

Произвольный оператор flatMapGroupsWithState с отслеживанием состояния кажется лучшим вариантом.

Как повторно инициализировать предыдущее состояние после перезапуска?

Это происходит автоматически как часть Spark Structured Streaming. Это назначение опции checkpointLocation (с каталогом state внизу). Вы не должны беспокоиться об этих низкоуровневых инфраструктурных битах.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...