Должен ли Apache Flink использоваться для исторических запросов - PullRequest
0 голосов
/ 22 мая 2018

Я проектирую архитектуру на основе событий, основанную на Kafka, и использую Flink для потоковой обработки.

Одним из вариантов использования будет запрос (фильтрация и сортировка результатов) исторических торговых данных, прошедших через тему Кафки с течением времени.например, "Дайте мне все сделки за последние 5 лет с этими атрибутами, отсортированными по xx".Общая история торговли составит около 10 млн., Увеличившись, скажем, на 1 млн. В год.

Является ли сам Flink подходящим инструментом для таких исторических запросов и способен ли он делать это с разумной производительностью (несколько секунд)?Или мне лучше передать события из Kafka в индексируемое / запрашиваемое хранилище данных, такое как MongoDB / RDBMS, и использовать его для хронологических запросов?

В первом случае кажется, что оно будет более тесно соответствовать архитектуре Kappa,в то время как прибегая к историческому БД, я чувствую, что я возвращаюсь назад к архитектуре Lambda.

1 Ответ

0 голосов
/ 22 мая 2018

Flink хорошо подходит для обработки исторических данных из темы Кафки (или любого другого источника данных) благодаря поддержке обработки по времени, то есть по обработке по времени, основанной на отметках времени в записях, не основанных на часахкомпьютер обработки (он же время обработки).

Если вы хотите выполнять только аналитику, возможно, вы захотите взглянуть на поддержку SQL Флинка.

...