Поиск и обработка вновь вставленных данных в postgresql без первичных ключей - PullRequest
0 голосов
/ 19 июня 2019

У меня есть большая таблица базы данных (80 + ГБ), и мне нужно ежедневно обнаруживать вновь введенные данные, а затем обрабатывать их и определять, соответствует ли они стандартам качества.Эта таблица не имеет первичного ключа или столбца отметки времени, что крайне затрудняет определение того, какие данные являются новыми по сравнению со старыми.Скорее всего, я не смогу добавить новые столбцы в таблицу.

Мой вопрос здесь: как я могу определить, когда новые данные вставляются, а затем запустить задание обработки только для только этих данных, используя Apache-Airflow. Задание обработки Airflow уже выполнено (кодируется и запускается), ему просто нужно указать, как начинать работу при вставке новых данных, а затем запускать только на новых данных, а не на всей таблице.

...