Фон нашей среды:
- Система хранилища данных работает с SQL Server 2012.
- Источниками данных являются файлы Excel и другие API
Проблема:
Бизнес-показатели часто меняются, исходный файл часто меняется, а загрузка данных не удалась по нескольким причинам.
- Столбецнесоответствие
- несоответствие типов данных
- неправильные файлы
- старый или один и тот же файл, дважды обновляемый
Некоторые из вышеуказанных проблем решаются с помощью руководств по процессуи другие на уровне SQL.
Но всякий раз, когда добавляется новый файл / столбец, разработчик должен вручную добавить столбец / таблицу, чтобы это изменение было затронуто.
Большинство изВременами изменения обнаруживались только после сбоя задания или выявления огромной проблемы качества / несоответствия данных.
Вопрос:
Есть ли способ, который можно автоматизировать с помощьюPython / Powershell / Any Other скриптязыки?Таким образом, когда исходные файлы готовы, он может прочитать и выполнить следующие шаги:
- Считать заголовки столбцов.
- Создать SQL для структуры таблицы с идентифицированными заголовками столбцов и создатьвременная (промежуточная) таблица.
- Загрузка данных во вновь созданную временную таблицу.
- После некоторой базовой обработки данных загрузите данные в основную таблицу (область представления) в основном с помощью SQL.
Задачи:
- Существует 18 уникальных файлов, и каждый столбец файла отличается, и он может быть изменен или добавлен в любое время в соответствии с требованиями бизнеса.
- Когда есть добавление столбца, как добавить этот столбец в основную таблицу - изменение таблицы - хорошая идея здесь?это нормально делать через скрипт?
Примечание:
- У нас есть контроль только из файла исходных данных, мы не можем ничего сделать с тем, как источникфайл сгенерирован или когда может быть добавлен новый столбец в исходный файл.
- Я не уверен, стоит ли задавать этот вопрос на SO OR DBA SE, поэтому, если он здесь не подходит, переместите его на соответствующий форум.