Как мне поступить с хранилищем данных из разных источников? - PullRequest
2 голосов
/ 20 января 2012

Я начинаю аналитический проект, который будет получать данные из нескольких разных источников и сравнивать их друг с другом. Источниками могут быть что угодно, от API, такого как Google Analytics API, до локальной базы данных.

Должен ли я создать единую базу данных для регулярного импорта этих данных?

Кто-нибудь может предложить некоторые лучшие практики, образцы или статьи? Я действительно не знаю, с чего начать, поэтому любая информация будет отличной! Спасибо!

Я буду использовать SQL Server 2008 R2, C # 4.0.

Ответы [ 3 ]

4 голосов
/ 20 января 2012

Это большой вопрос, Майк - у многих людей целая карьера не делает ничего, кроме хранилищ данных.

Я бы дал квалифицированное «да» на ваш первый вопрос - одна из главных привлекательных черт DWH заключается в том, что вы можете объединить несколько источников данных в один источник информации. (Уточнение заключается в том, что могут быть обстоятельства, когда вы не хотите этого делать, например, по соображениям безопасности или производительности.)

Как всегда, Википедия является разумной первой остановкой для получения информации по этому вопросу. Поскольку ваш вопрос уже помечен как , StackOverflow является еще одним возможным источником.

Канонические книги по этой теме, вероятно:

  • Создание хранилища данных - WH Inmon
  • Набор инструментов хранилища данных - Ральф Кимбалл, Марджи Росс
  • Набор инструментов жизненного цикла хранилища данных - Ральф Кимбалл, Марджи Росс, Уоррен Торнтуэйт, Джой Манди, Боб Беккер

Обратите внимание, что подходы Inmon и Kimball радикально различаются - Inmon концентрируется на нисходящем, нормализованном реляционном подходе к построению корпоративной DWH, в то время как подход Kimball является более восходящим, размерным и функциональным на основе интеллектуальных данных.

Инструментарий DWH концентрируется на технических аспектах создания DWH, а инструментарий DWH Lifecycle основан как на организационных задачах, так и на технических деталях.

Удачи!

3 голосов
/ 20 января 2012

Я бы начал с SSIS , которая представляет собой технологию интеграции данных, которая поставляется с SQL Server. Он может обрабатывать много источников данных, которые вам нужны. Если вы используете такие API, как Googles, для получения данных, вам может понадобиться сначала поместить их в промежуточную таблицу.

Начните с одной промежуточной базы данных, которую вы будете использовать в качестве основного источника для загрузки данных в службы Analysis Services, и посмотрите, как это работает. Используйте SSIS для заполнения этой промежуточной базы данных.

0 голосов
/ 20 июля 2015

Вам необходимо выполнить следующие шаги: 1. Сначала вам нужно выбрать платформу ETL, такую ​​как SSIS, Informatica или другие инструменты ETL, и т. Д. 2. Затем вам нужно выбрать подходящую базу данных, такую ​​как Oracle илиSQL-сервер и т. Д. 3. После этого вам необходимо выполнить моделирование логического хранилища данных (Star или Snowflake) и 4. Наконец, вам необходимо разработать весь комплекс хранилищ данных.

Я бы посоветовал создать две базы данных, а именно: 1. СОД для хранения данных из разных источников и для очистки и 2. База данных хранилища для хранения всех соответствующих данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...