Лучший способ построить DataMart из нескольких внешних систем? - PullRequest
3 голосов
/ 12 октября 2010

Я нахожусь на стадии планирования создания DataMart SQL Server для почтовой / электронной почты / SMS-контактной информации и истории. Каждый фрагмент данных находится в другой внешней системе. Из-за этого адреса электронной почты не имеют номеров счетов, а номера телефонов SMS не имеют адресов электронной почты и т. Д. Другими словами, нет общего первичного ключа. Некоторые данные перекрываются, но я ничего не могу сделать, кроме как сохранить наиболее полную версию при возникновении дубликатов.

Есть ли лучшая практика для построения DataMart с этими данными? Будет ли приемлемой практикой создание таблицы ключей со столбцом для каждого внешнего ключа? Затем можно назначить уникальный первичный идентификатор, чтобы связать его с другими таблицами DataMart.

В поисках идей / предложений о подходах, о которых я, возможно, еще не подумал.

Спасибо.

Ответы [ 3 ]

2 голосов
/ 12 октября 2010

Адрес электронной почты или номер телефона звучит как подходящий деловой ключ.Обычно «промежуточная» база данных используется для загрузки данных из нескольких источников, а затем для назначения суррогатных ключей и других преобразований.

Вы знакомы с методами хранилища данных и шаблонами проектирования?Если у вас нет предыдущих знаний или опыта, подумайте о найме помощи.Проекты BI / хранилища данных имеют очень высокую частоту отказов, и ошибки могут быть дорогостоящими.

1 голос
/ 28 октября 2010

Более подробную информацию можно найти здесь:

http://en.wikipedia.org/wiki/Extract,_transform,_load#Dealing_with_keys

0 голосов
/ 14 октября 2010

Ну, без какой-либо другой информации, чтобы связать разрозненные части, ваш datamart будет довольно элементарным.Вы сможете получать типы данных (смс, электронная почта, почта), метрики для каждого типа с течением времени («на этой неделе / ​​месяце / квартале / году мы набирали в среднем 42,5 смс-сообщений в день и 8000 писем в месяц! W00t»)! ").Только с номерами телефонов и адресами электронной почты ваши «другие датамарты», вероятно, должны быть названиями телефонных компаний или интернет-доменами.Я полагаю, вы могли бы связать это с какой-то географической информацией (местоположения интернет-провайдера?) Или, возможно, финансовой информацией для компаний.Это своего рода размытие, если вы еще не знаете, в каком направлении хотите идти.

Если честно, это звучит так, как будто кто-то наверху испытывает коленную реакцию на модное слово «datamart» в сочетании суслышав кое-что о том, насколько важны метрики общения, они отправили по цепочке заказы, чтобы «принести нам несколько информационных меток для запуска статистики по всем нашим электронным письмам!»

Вам необходимо выяснить, что именно выили ваш работодатель ожидает выхода из этого проекта, и , а затем выяснят, дают ли данные, которые вы собираете в настоящее время, путь к этой информации.Прямо сейчас звучит так, будто вы делаете это задом наперед («У меня есть эти данные, для чего это нужно?»).Вполне возможно, что в данный момент у вас нет нужных вам данных, что означает, что вам нужно их купить (кто знает, можете ли вы) или начать собирать их, и в этом случае у вас не будет красивых графиков и трендов.строки для высшего руководства, чтобы посмотреть на некоторое время ... падение прямо в соответствии с предупреждением, которое dportas дал вам во втором абзаце;)

...