Практическая реализация для хранилища данных - PullRequest
1 голос
/ 30 сентября 2011

Хранилище данных кажется большой тенденцией в наши дни, и это очень интересно для меня.Я пытаюсь ознакомиться с его концепциями, и у меня возникла проблема «увидеть лес сквозь деревья», потому что все модели и описания хранилищ данных, которые я могу найти в Интернете, теоретические , но неприводит примеры использования реальных технологий.Я изучаю контекст, поэтому абстрактные теоретические объяснения не очень-то мне помогают.

Сейчас, похоже, существует много "моделей хранилищ данных", но все они, похоже, имеют некоторые схожиехарактеристики.В действительности существует « ODS » (хранилище оперативных данных, которое объединяет данные из нескольких источников в одном месте. Затем процесс, известный как «ETL», преобразует данные в этом ODS в «хранилище данных» и сновав «данные» и / или «стратегические витрины».

Может ли кто-нибудь привести пример технологий, которые будут использоваться для каждого из этих компонентов (ODS, ETL, хранилище данных, витрины данных / стратегии)?

Похоже, что ODS может быть любой обычной базой данных, но хранилище данных, похоже, имеет некоторые особые свойства, потому что оно используется этими "витринами" для извлечения данных.

ETLэто самая большая вещь, которой я задыхаюсь. Это язык? Фреймворк? Алгоритм?

Думаю, однажды, увидев конкретный пример того, что происходит на каждом этапе пути, я 'Наконец-то получите . Заранее спасибо!

Ответы [ 3 ]

1 голос
/ 03 октября 2011

ETL - это процесс. Аббревиатура расшифровывается как Extract-Transform-Load, которая описывает, что делается с данными во время процесса. Процесс может быть реализован в любом месте, где вам нужно создать мост между двумя системами с различными форматами данных. Во-первых, вам нужно извлечь (извлечь) данные из исходной системы (базы данных, плоских файлов, веб-службы и т. Д.), Затем данные обрабатываются (преобразуются) для соответствия формату целевого хранилища (опять же, оно может варьироваться: базы данных, файлы, вызовы API). На этапе преобразования могут быть выполнены дальнейшие действия с набором данных в качестве обогащения данными из других источников, очистки и улучшения его качества. Последний шаг - загрузка преобразованных данных в целевое хранилище.

Обычно процесс ETL используется для загрузки хранилища данных, переноса данных из одной системы или базы данных в другую при переходе от устаревшей системы к новой, синхронизации данных между двумя или более системами. Он также используется в качестве промежуточного слоя в более широких решениях MDM и BI.

Что касается конкретного программного обеспечения, на рынке имеется множество инструментов ETL, от надежных решений от крупных игроков, таких как Informatica, IBM DataStage, Oracle Data Integrator, до более доступных поставщиков с открытым исходным кодом, таких как CloverETL, Talend или Pentaho. Большинство этих инструментов имеют графический интерфейс, в котором поток и обработка данных определяются с помощью диаграмм.

0 голосов
/ 12 октября 2011

Я бы настоятельно рекомендовал ознакомиться с некоторыми книгами Ральфа Кимбалла и Марги Росс (Набор инструментов хранилища данных, Набор инструментов жизненного цикла хранилища данных) для ознакомления с хранилищем данных.

Хранилище данных моей компании построено с использованием инструмента Oracle Warehouse Builder для ETL. OWB - это инструмент с графическим интерфейсом, который генерирует код PL / SQL в базе данных для манипулирования данными. После манипуляций и очистки данные публикуются в Oracle datamart. Datamart - это экземпляр базы данных, к которому пользователи обращаются для специальных запросов через Oracle Discoverer (программное обеспечение Java).

0 голосов
/ 03 октября 2011

Для Microsoft SQL Server 2005 и более поздних версий инструмент ETL называется SSIS (службы интеграции SQL Server). Если вы установите хотя бы Стандартную версию SQL Server, вы получите Business Intelligence Developer Studio , с помощью которой вы сможете создавать свои потоки данных. По сути, инструмент ETL берет данные из одного или нескольких источников (таблиц, плоских файлов и т. Д.), Затем преобразует их (добавляет столбцы, объединяет, фильтрует, сопоставляет с различными типами данных и т. Д.) И, наконец, снова сохраняет их в одна или несколько таблиц или файлов.

Чтобы получить общее представление о том, как что-то работает, вы можете посмотреть, например, это видео или это (оба из midnightdba). Они немного длинные, но у вас есть идея. Они, безусловно, помогли мне понять основные функциональные возможности инструмента ETL.

К сожалению, я еще не копался в других платформах или инструментах.

...