У меня есть несколько конвейеров ETL, которые либо указывают на один и тот же исходный файл, к которому добавляются новые данные, либо на ежедневные дампы, которые содержат все исторические данные плюс новые данные. Проблема, с которой я сталкиваюсь, заключается в том, что я хочу импортировать только новые данные из этих файлов и любые исторические данные, которые могли быть изменены.
В сценарии, в котором необходимо изменить исторические данные, мне потребуетсяизучить каждую строку и значение каждого столбца, чтобы увидеть, изменилось ли что-либо в моей производственной базе данных. Некоторые из этих наборов данных имеют более 30 столбцов, так что это кажется очень сложным делом.
В настоящее время я просто перезаписываю все в работе с последним исходным файлом, независимо от того, есть ли какие-либо изменения. Это лучший способ справиться с этим? Я делаю все свои ETL в Python, используя Pandas и Postgres.