Когда данные стираются из БД OLAP? - PullRequest
0 голосов
/ 21 января 2010

Я новичок в OLAP.

Я понимаю структуру таблицы и процесс ETL.

Я не понимаю, когда данные должны быть удалены из таблицы фактов.Скажем, я создаю приложение для отчетов о событиях.каждое событие имеет продолжительность, необходимую для завершения, код выхода и общее количество прочитанных байтов.Существует несколько измерений, например, время и местоположение.

Допустим, у меня есть 1 миллион новых записей, готовых для моей таблицы фактов ежедневно, всего 1 ГБ.Если мой процесс ETL только добавляет данные в мою таблицу фактов, он растет бесконечно.Когда я должен удалить данные из моей таблицы фактов?Должен ли я разделить данные на несколько таблиц фактов (например, ежемесячных таблиц)?

Есть ли какое-нибудь практическое правило?

Спасибо

Ответы [ 2 ]

1 голос
/ 23 января 2010

Никогда. Вы можете использовать разделы для работы со старыми записями и перемещения разделов на другие диски. Если вы разбиваете таблицы фактов по дате (квартал месяца, год), то для практических целей вы в большинстве случаев получаете доступ к нескольким последним разделам большую часть времени.

Имейте в виду, что DW принадлежит бизнес-пользователям, а не ИТ. Не ограничивайте (не пытайтесь предположить) вопросы, которые бизнес-аналитик, возможно, захочет задать - запросите DW.

1 голос
/ 21 января 2010

История никогда не должна быть удалена.

Период.

Однако некоторые люди нервничают, что 1 ГБ в день может превращаться в 1 ТБ каждые 3 года. На самом деле это редко имеет значение, но некоторые люди все еще любят беспокоиться о цене хранения.

Ваше время, потраченное на разработку очистки данных, может быть дороже, чем хранилище, которое вы пытаетесь сохранить.

[Я обнаружил, что 3 администратора баз данных и 2 программиста обсуждают способы экономии нескольких сотен МБ. Я сказал, что доведу их всех до Best Buy и куплю дисковод на 500 Мб с запасной заменой на полу моего автомобиля. Цена 5 консультантов, которые просто вошли в комнату, чтобы обсудить это, уже превысила стоимость хранилища, которое они пытались «спасти».]

Вопрос "можем ли мы обобщить?" полностью зависит от пользователей. Иногда вы не можете подвести итог, поэтому вы также не можете легко удалить что-либо.

Некоторые люди скажут, что рабочий цикл составляет 20 лет или что-то в этом роде, и захотят детали за первые 20 лет (на 7 ТБ), а затем будут сводные данные за периоды времени до этого.

...