Курсор SQL подвергнут рефакторингу в конечный автомат Python в кластере Spark - PullRequest
0 голосов
/ 10 сентября 2018

Сейчас я поддерживаю большое хранилище данных, реализованное в MS SQL и SSIS, которое обновляется каждую ночь с помощью пакетного процесса. В настоящее время существует ночной процесс ETL, который принимает данные, полученные в течение последних 24 часов, обрабатывает их с помощью конечного автомата, реализованного в SQL Server, используя курсоры и t-sql, и вставляет их в таблицу фактов. Этот конкретный процесс занимает около 1 часа. В качестве учебного упражнения и POC я хотел бы записать данные в файл, а затем использовать Python (библиотека State.py) через кластер Spark для обработки данных и затем загрузить их обратно на SQL-сервер. Данные можно легко разбить на части, разбить на более мелкие куски и обработать параллельно. Это звучит как разумная стратегия? Может кто-нибудь дать какой-нибудь совет, прежде чем отправиться на этот POC? Спасибо!

...