Question

Я только что узнал о Apache Кафке. Мой текущий ETL работает в пакетном режиме, и теперь я хочу, чтобы он выполнялся в потоковом процессе, чтобы данные, используемые для отчетов, всегда были актуальными. Насколько я понимаю, я могу использовать коннектор MongoDB для захвата изменений данных из mongodb, а затем их отправки на kafka topi c. Но в моем ETL мне нужно сохранить данные после обработки в базе данных SQL. Как и где я могу обработать данные, отправленные с mongodb на топи c, а затем создать из них запись в другую базу данных? Могу ли я использовать лямбда-функцию AWS для обработки и создания записи? Но тогда как я могу вызвать эту функцию из кафки?

Robin Moffatt · Answer 1 · 17 июня 2020

Короткий ответ на ваш вопрос: Kafka Connect . Более длинный ответ - Kafka Connect плюс потоковая обработка (например, Kafka Streams, ksqlDB, et c).

Ваш конвейер будет выглядеть примерно так:

Чтение из MongoDB с помощью Kafka Connect (например, этот коннектор или этот коннектор ). Вот пример
При желании можно обработать данные (фильтровать, обогащать, агрегировать, объединять) с потоковой обработкой. Вот пример с использованием ksqlDB.
Передача данных в базу данных с помощью Kafka Connect и JDB C Sink connector . Вот пример учебника .

Вот более общий обзор использования Kafka в ETL в качестве блога и talk . Вы можете узнать больше о Kafka Connect в этом разговоре .

ETL с Kafka и MongoDB в качестве источника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

ETL с Kafka и MongoDB в качестве источника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы