Вопрос о шаблоне проектирования реляционной базы данных - Massive Read Only database - PullRequest
0 голосов
/ 11 мая 2009

У меня есть интересная задача создания базы данных, которая импортирует данные из примерно 500 различных источников.

Каждый источник имеет свою собственную схему, и многие очень разные. Однако все они являются данными об общем объекте.

Моя первая мысль - это типичная схема сущности / атрибута / значения, однако после преобразования денормализованного импорта из одного источника (550 тыс. Строк) в AEV у меня получается 36 миллионов строк в таблице Attribute_Value. При правильных индексах это все еще очень быстро, но пока это только один из 500 источников импорта.

Я не думаю, что это будет масштабироваться, однако это обеспечивает очень хорошее логическое разбиение, нам не нужно объединять источники импорта, поэтому мы можем построить (теоретически) около 50 отдельных баз данных.

Я ищу людей, которые работали с массивными источниками данных, и их опыт работы с вещами, когда количество строк исчисляется сотнями миллионов.

Ответы [ 2 ]

2 голосов
/ 11 мая 2009

У меня есть миллиард + таблиц строк, количество строк не так критично, как уровень фрагментации и ширина самой таблицы, чем шире таблица, тем меньше вы можете поместиться на странице

рядом с OLAP / SSAS Вы смотрели на использование секционированных функций (новое в SQL Server 2005)

Вы также можете воспользоваться преимуществами сжатия на уровне страниц и строк (впервые в SQL Server 2008), это поможет вам сохранить больше данных в ОЗУ, я провел собственное тестирование со сжатием, посмотрите эту ссылку, чтобы увидеть, как она сравнивается с сжатие Быстрый взгляд на сжатие в SQL 2008

2 голосов
/ 11 мая 2009

Рассматривали ли вы решения OLAP? Они, вероятно, предназначены для таких ситуаций, как ваша. Огромное количество данных для чтения и анализа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...