Question

Я работаю над потоковым приложением, входной поток - это серия событий. Для каждого события мне нужно отфильтровать действительных подписчиков из реляционной базы данных.

eventId => (eventId, [subscriberIds])

Предположим, что таблица подписки ограничена (или неограничена, если это удобно) и имеет миллионы строк, есть ли способ сделать эту фильтрацию эффективной?

Предположим, я использую Flink, но я также открыт для решений Spark или Storm.

David Anderson · Answer 1 · 08 апреля 2020

Если предположить, что набор действительных подписчиков постоянно обновляется и что вы не должны использовать устаревшую информацию при выполнении этой проверки, тогда Flink предлагает пару вариантов:

Используйте asyn c оператор ввода-вывода Flink для управления запросами к реляционной базе данных
Поддержание зеркала реляционной базы данных в состоянии Flink путем потоковой передачи в ее потоке захвата данных изменений

Фильтрация из большого набора данных в потоке обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Фильтрация из большого набора данных в потоке обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы