Question

Хранилище данных кажется большой тенденцией в наши дни, и это очень интересно для меня.Я пытаюсь ознакомиться с его концепциями, и у меня возникла проблема «увидеть лес сквозь деревья», потому что все модели и описания хранилищ данных, которые я могу найти в Интернете, теоретические , но неприводит примеры использования реальных технологий.Я изучаю контекст, поэтому абстрактные теоретические объяснения не очень-то мне помогают.

Сейчас, похоже, существует много "моделей хранилищ данных", но все они, похоже, имеют некоторые схожиехарактеристики.В действительности существует « ODS » (хранилище оперативных данных, которое объединяет данные из нескольких источников в одном месте. Затем процесс, известный как «ETL», преобразует данные в этом ODS в «хранилище данных» и сновав «данные» и / или «стратегические витрины».

Может ли кто-нибудь привести пример технологий, которые будут использоваться для каждого из этих компонентов (ODS, ETL, хранилище данных, витрины данных / стратегии)?

Похоже, что ODS может быть любой обычной базой данных, но хранилище данных, похоже, имеет некоторые особые свойства, потому что оно используется этими "витринами" для извлечения данных.

ETLэто самая большая вещь, которой я задыхаюсь. Это язык? Фреймворк? Алгоритм?

Думаю, однажды, увидев конкретный пример того, что происходит на каждом этапе пути, я 'Наконец-то получите . Заранее спасибо!

Jan Tichy · Answer 1 · 03 октября 2011

ETL - это процесс. Аббревиатура расшифровывается как Extract-Transform-Load, которая описывает, что делается с данными во время процесса. Процесс может быть реализован в любом месте, где вам нужно создать мост между двумя системами с различными форматами данных. Во-первых, вам нужно извлечь (извлечь) данные из исходной системы (базы данных, плоских файлов, веб-службы и т. Д.), Затем данные обрабатываются (преобразуются) для соответствия формату целевого хранилища (опять же, оно может варьироваться: базы данных, файлы, вызовы API). На этапе преобразования могут быть выполнены дальнейшие действия с набором данных в качестве обогащения данными из других источников, очистки и улучшения его качества. Последний шаг - загрузка преобразованных данных в целевое хранилище.

Обычно процесс ETL используется для загрузки хранилища данных, переноса данных из одной системы или базы данных в другую при переходе от устаревшей системы к новой, синхронизации данных между двумя или более системами. Он также используется в качестве промежуточного слоя в более широких решениях MDM и BI.

Что касается конкретного программного обеспечения, на рынке имеется множество инструментов ETL, от надежных решений от крупных игроков, таких как Informatica, IBM DataStage, Oracle Data Integrator, до более доступных поставщиков с открытым исходным кодом, таких как CloverETL, Talend или Pentaho. Большинство этих инструментов имеют графический интерфейс, в котором поток и обработка данных определяются с помощью диаграмм.

saritonin · Answer 2 · 12 октября 2011

Я бы настоятельно рекомендовал ознакомиться с некоторыми книгами Ральфа Кимбалла и Марги Росс (Набор инструментов хранилища данных, Набор инструментов жизненного цикла хранилища данных) для ознакомления с хранилищем данных.

Хранилище данных моей компании построено с использованием инструмента Oracle Warehouse Builder для ETL. OWB - это инструмент с графическим интерфейсом, который генерирует код PL / SQL в базе данных для манипулирования данными. После манипуляций и очистки данные публикуются в Oracle datamart. Datamart - это экземпляр базы данных, к которому пользователи обращаются для специальных запросов через Oracle Discoverer (программное обеспечение Java).

Andreas · Answer 3 · 03 октября 2011

Для Microsoft SQL Server 2005 и более поздних версий инструмент ETL называется SSIS (службы интеграции SQL Server). Если вы установите хотя бы Стандартную версию SQL Server, вы получите Business Intelligence Developer Studio , с помощью которой вы сможете создавать свои потоки данных. По сути, инструмент ETL берет данные из одного или нескольких источников (таблиц, плоских файлов и т. Д.), Затем преобразует их (добавляет столбцы, объединяет, фильтрует, сопоставляет с различными типами данных и т. Д.) И, наконец, снова сохраняет их в одна или несколько таблиц или файлов.

Чтобы получить общее представление о том, как что-то работает, вы можете посмотреть, например, это видео или это (оба из midnightdba). Они немного длинные, но у вас есть идея. Они, безусловно, помогли мне понять основные функциональные возможности инструмента ETL.

К сожалению, я еще не копался в других платформах или инструментах.

Практическая реализация для хранилища данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Практическая реализация для хранилища данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы