Как сделать ETL используя потоковую обработку - PullRequest
0 голосов
/ 18 февраля 2019

У меня есть база данных SQL-сервера, где миллионы строк (вставляются / удаляются / обновляются) каждый день.Я должен предложить решение ETL для передачи данных из этой базы данных в хранилище данных.Сначала я пытался работать с CDC и SSIS, но компания, в которой я работаю, хочет найти решение в реальном времени.Я провел некоторые исследования и обнаружил потоковую обработку.Я также искал учебники Spark и Flink, но ничего не нашел.

Мой вопрос: какой инструмент обработки потоков выбрать?и как мне научиться работать с ним?

1 Ответ

0 голосов
/ 18 февраля 2019

Решение с открытым исходным кодом Вы можете использовать инструмент интеграции Confluent Kafka для отслеживания операций вставки и обновления с использованием метки времени загрузки.Они автоматически предоставят вам данные в реальном времени, которые будут вставлены или обновлены в базе данных.Если у вас есть мягкое удаление в вашей базе данных, это также можно отследить, используя отметку времени загрузки и активный или неактивный флаг.Если таких флагов нет, вам нужно предоставить некоторую логику, в которой раздел может быть обновлен в этот день, и отправить весь этот раздел в поток, что, безусловно, является исчерпывающим ресурсом.

Платное решение Существует платный инструмент под названием Striim CDC , который может предоставлять ответы в вашей системе в режиме реального времени

...