Чтение ETL из одного и того же исходного файла каждую ночь - PullRequest
0 голосов
/ 01 ноября 2019

У меня есть несколько конвейеров ETL, которые либо указывают на один и тот же исходный файл, к которому добавляются новые данные, либо на ежедневные дампы, которые содержат все исторические данные плюс новые данные. Проблема, с которой я сталкиваюсь, заключается в том, что я хочу импортировать только новые данные из этих файлов и любые исторические данные, которые могли быть изменены.

В сценарии, в котором необходимо изменить исторические данные, мне потребуетсяизучить каждую строку и значение каждого столбца, чтобы увидеть, изменилось ли что-либо в моей производственной базе данных. Некоторые из этих наборов данных имеют более 30 столбцов, так что это кажется очень сложным делом.

В настоящее время я просто перезаписываю все в работе с последним исходным файлом, независимо от того, есть ли какие-либо изменения. Это лучший способ справиться с этим? Я делаю все свои ETL в Python, используя Pandas и Postgres.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...