Может кто-нибудь объяснить, что такое интеллектуальный анализ данных, SSIS, BI, ETL и другие связанные технологии? - PullRequest
9 голосов
/ 06 января 2009

Вчера я разговаривал с коллегой по поводу ситуации, когда он использовал SSIS (или что-то в этом роде), чтобы сделать что-то действительно классное с пакетом SSIS, когда он назвал его как доктор Реджинальд Уильямс, доктор философии. " и основываясь на некоторой весовой схеме, система была достаточно умна, чтобы выяснить, как ее маркировать и сохранить в базе данных как «Приветствие - Имя - Фамилия - Суффикс». Он выкинул несколько модных слов, таких как BI, SSIS, ETL и Data mining. Я действительно хотел больше информации, но даже не знал, с чего начать.

Я разработчик .Net и хорошо разбираюсь в C #, Vb.Net, WPF и т. Д., Но не знаю, что это за технологии, как их добавить в мой набор навыков и нужно ли это то, на чем я действительно должен сосредоточиться. Было бы полезно любое направление.

Ответы [ 3 ]

21 голосов
/ 06 января 2009

SSIS == SQL Server Integration Services, и это инструмент извлечения и преобразования (ETL), который намного превосходит реализацию служб преобразования данных или DTS в эпоху SQL7, SQL2K. Это отличный инструмент для выражения процессов рабочих процессов, в которых данные перемещаются из точки A в точку B (и c, d и т. Д.) И претерпевают изменения в ходе этого процесса, такие как консолидация в денормализованный дизайн или очистка данных.

BI или Business Intelligence - это прозвище для всей категории в мире технологий, и это прекрасное место, чтобы быть прямо сейчас. Навыки BI очень ценны и их трудно найти, одна из причин, по которой дело обстоит так, заключается в том, что трудно воссоздать истинный пример BI в лаборатории, поэтому обучение почти всегда проводится в реальной ситуации.

На высоком уровне BI-проекты обычно включают конечную точку отчетности. Часто, как разработчики, мы привыкли к написанию транзакционных отчетов, таких как детали заказа на поставку, но BI может получать очень широкие отчеты, которые охватывают тенденции продаж продуктов за десятилетия и имеют дело с сотнями миллионов записей. То, как мы проектируем базы данных для приложений, не идеально подходит для такого рода отчетности, поэтому были разработаны и использованы другие инструменты и технологии в пространстве BI. Такие вещи, как кубы, которые вы часто слышите, называются кубами OLAP. Кубы OLAP обычно происходят из хранилища данных, которое представляет собой не что иное, как другую базу данных, но типичные хранилища содержат данные, полученные из более чем одной, и часто десятки других баз данных приложений. Ваше приложение для инвентаризации, приложение для закупок, приложение для управления персоналом и целый ряд других содержат кусочки данных, которые создают полную картину бизнеса. Архитектор BI будет использовать что-то вроде SSIS, чтобы извлекать данные из всех этих систем, массажировать их. и сохраните его в хранилище данных, которое разработано с другим дизайном, лучше для отчетности. Как только он попадет в хранилище, он будет использовать службы Analysis для создания кубов на этих данных и что-то вроде служб Reporting Services для отображения отчетов по этим данным.

Редактировать: извините, забыл Data Mining, это еще один неспецифический термин, который описывает и концепцию, или процесс, а не столько инструмент. В простом примере это методический подход к выявлению закономерностей в данных. В прошлом хороший бизнес-анализ просматривал данные на предмет тенденций, но в современных базах данных вы говорите о наборах данных, которые слишком велики, чтобы их можно было вручную прочесывать - интеллектуальный анализ данных позволяет вам дать компьютеру команду прочесывать эти данные и выявлять представляющие интерес шаблоны .

Надеюсь, что поможет

3 голосов
/ 06 января 2009

То, что сделал ваш коллега, может быть лучше описано как «интеллектуальный анализ» строки. Это может быть сделано на многих уровнях сложности - например, используя статистические модели, чтобы дать вам вероятность того, что «доктор» это приветствие, а не имя. Или же он мог бы просто использовать простой список распространенных приветствий, в этом случае это просто обычный процедурный код, ничего более.

Службы SSIS - это сокращение от служб интеграции SQL Server. Это в основном DTS на стероидах; некоторые люди любят это, а некоторые ненавидят. Было бы сложно использовать это само по себе для того, о чем вы говорите; в основном это просто для того, чтобы взять данные из различных источников и объединить их, преобразовать и загрузить в другое место. Он может делать некоторые изящные вещи, многие из которых, как правило, похожи на интеллектуальный анализ данных, но в конечном итоге это производственный инструмент для объединения данных в ту или иную сторону. Это не особенно уважается в сообществе интеллектуального анализа данных.

Data Mining - это целая академическая дисциплина, сфокусированная на использовании некоторого (обычно большого) количества данных для прогнозирования будущих ответов или лучшего понимания закономерностей в существующих данных. Это определенно отличная область, в которую вы можете войти, но не то, что вы можете просто взять и обойтись без какого-либо интенсивного изучения математики и алгоритмов. Хорошая книга на эту тему эта .

«Бизнес-аналитика» - это скорее модное слово, чем конкретная технология, и может означать разные вещи для разных людей. По сути, идея заключается в том, чтобы делать бизнес-данные менее глупыми и, как правило, относится к анализу тенденций во времени, часто с использованием OLAP. Сюда также могут входить алгоритмы интеллектуального анализа данных или ИИ, но поскольку точного определения не существует, любой, кто захочет продать вам что-либо, скажет вам, что предлагает «Business Intelligence», и надеется, что вы не будете копать дальше.

2 голосов
/ 06 января 2009

SSIS - это SQL Server Integration Services , и он полезен для выполнения ETL (извлечения, преобразования и загрузки), которые являются интерфейсом многих решений для хранилищ данных / бизнес-аналитики , которые интегрировать данные в простые в использовании многомерные модели. Служба SSIS также полезна для небольших проектов как удобный способ загрузки устаревших данных или данных из других хранилищ или файлов.

Интеллектуальный анализ данных обычно подразумевает использование данных из интегрированных источников для вывода информации, которая не будет очевидна из транзакционных данных (через интеграцию нескольких источников, дающих больше «измерений» данным.

BI - это огромная тема, поэтому на ней, возможно, не стоит сосредоточиться, если только вы не хотите войти в эту область, но SSIS может быть полезен для небольших проектов и о ней стоит узнать в любом случае.

...