Возврат (или отмена) большой нагрузки на таблицу фактов склада - PullRequest
0 голосов
/ 07 января 2009

В настоящее время мы планируем записать «идентификатор партии» для каждой загруженной нами партии фактов. Таким образом, мы можем вернуть нагрузку в случае обнаружения проблем.

Должны ли мы также отслеживать отслеживание идентификатора партии в строках измерений?

Кажется, у строк измерений разные правила. Если мы рассматриваем их как медленно меняющиеся и используем один из алгоритмов SCD, который сохраняет историю, то перезагрузка на самом деле ничего не значит.

Типичный сценарий. Соответствие измерения, обработка SCD. Загрузить факты. Готово.

Extension. Соответствие измерения, обработка SCD. Загрузить факты. Найдите проблему. Удалить пакет фактов. Решить проблему. Перезагрузите факты. Готово.

Возможный сценарий. Соответствие измерения, обработка SCD. Загрузить факты. Найдите проблему. Удалите пакет фактов и строки измерений. Решить проблему. Соответствие измерения, обработка SCD. Загрузить факты. Готово.

Не похоже, что отслеживание изменений размеров очень помогает. Любое руководство о том, как лучше всего справиться с «отменой» или «откатом» нагрузки хранилища данных?

Наши инструменты ETL являются полностью домашними приложениями Python.

1 Ответ

3 голосов
/ 01 апреля 2009

С моей точки зрения, до тех пор, пока вы не злоупотребляете своими измерениями (например, время отслеживания до миллисекунды), при отслеживании измерений для отката не так много выигрыша. Также вы можете создать инструмент для очистки размеров без ссылок один раз в месяц.

...