Etl Script для запуска шесть месяцев за один раз, чтобы загрузить в течение нескольких ночей - PullRequest
0 голосов
/ 29 октября 2019

Мне нужно загрузить хранилище данных из системы, которая работала последние 4 года. Я хотел бы иметь скрипт, который проверяет новейшую запись, а затем, если это более 36 часов, загружает данные за следующие шесть месяцев. Если ему всего 24 часа, я хотел бы просто получить данные за последние 24 часа. Это была бы ночная работа. Я делю это, так как второй шаг ETL может занять много времени, поэтому я хотел распределить нагрузку

Пока я еще не пробовал ничего практичного, но у меня есть идея получить файл журнала, который имеетМаксимальная дата проведена. Затем я использовал бы это для заполнения параметров между операторами SQL, просто добавив к данным 6 месяцев. После извлечения журнал будет обновлен с максимальной датой из промежуточных таблиц.

Мои ожидаемые результаты состоят в том, что в течение недели или около того данные наверстают упущенное за одну ночь в течение ночи до текущего.

Полагаю, я бы хотел получить совет по созданию файла журнала и созданию параметров

...