Question

Обычно измерения в кубе OLAP представляют собой числа, и эти числа агрегируются посредством сложения (или с помощью некоторой не очень экзотической функции, такой как times, MAX или MIN).Мне интересно, позволяет ли какой-либо из основных серверов OLAP принимать меры, которые устанавливает чисел или устанавливает строк.(«Установить» здесь в математическом смысле, а не на языке жаргонного выражения OLAP «список кортежей».) В то время как OLAP обычно агрегирует меры с помощью числовых функций, мои гипотетические «меры набора» будут агрегироваться с помощью операций набора, например, объединения объединенияили установите пересечение.

Меня интересует как теоретически, так и практически.Теоретически / абстрактно / математически, есть хорошая параллель между сложением над целыми числами и объединением над множествами, и кажется, что кто-то мог рассмотреть эту параллель при написании OLAP-сервера.(Одна потенциальная реализация, если все возможные члены набора были известны заранее, состоит в том, чтобы представлять каждый набор как (потенциально большое) целое число, а затем агрегировать / объединять, выполняя побитовое ИЛИ.)

Что касается практикиЯ попытаюсь привести конкретный случай, когда это может показаться, по крайней мере, незначительно полезным: предположим, у вас есть набор данных, в котором каждый факт представляет собой метаданные, связанные с академической статьей.Каждая статья может иметь дату, тему и набор из одного или нескольких авторов, например:

fact1: {"Год": 1997, "Тема": "AI", "AuthorSet"": [" Билл Джонс "," Марта Х "]}
fact2: {" Год ": 1997," Тема ":" Лингвистика "," AuthorSet ": [" Джон К "," Сэм С ""]}
fact3: {" Year ": 1997," Topic ":" Linguistics "," AuthorSet ": [" John Q "," Jack X "]}
и т. Д.

(я использую квази-JSON здесь только потому, что это помогает понять, что является многозначным.)

Если вы создали куб OLAP вокруг этих данных, казалось бы,вполне естественно иметь возможность составить отчет, показывающий, как набор авторов, пишущих на заданную тему, менялся из года в год.В MDX это может выглядеть так:

select
[Measures].[AuthorSet] on columns,
[Year].[Year].All on rows
where ([Topic].[Topic].[AI])

Для каждого года этот запрос будет сворачивать список авторов с помощью set union.

Чтобы максимально использовать эту функциювам, вероятно, понадобятся пользовательские клиентские инструменты OLAP, которые в частности знали о заданных показателях.Но для существующих клиентов вы можете просто вернуться к некоторому строковому представлению набора.(например, приведенный выше запрос может вернуть ячейки, содержащие, например, строку «Билл Джонс; Марта X; Джон Q; Сэм S; Джек X»)

Я больше всего знаком с SSAS, а SSAS неткажется, поддерживает что-то подобное из коробки.Кажется, что может быть способ взломать его вместе, используя меры строкового типа, возможно, плюс пользовательские функции CLR, но я еще не понял этого.

Этот конкретный случай вы также можете решитьтолько в MDX, возможно, с использованием пользовательских элементов, Generate и SetToStr?(Решения приветствуются!) Но моя интуиция заключается в том, что по мере того, как все усложняется, было бы более естественным, чтобы агрегация наборов происходила более естественно за кулисами с помощью этой функции "set member".

ic3 · Answer 1 · 03 февраля 2012

Мой комментарий предвзят, так как я работаю с тимбилдингом icCube OLAP Server .

За исключением поля Spatial OLAP, я не знаю, как работают серверы OLAP сдругие как основные типы измерений.Есть некоторые технические трудности: вы должны ввести новые типы в систему (это один столбец и одна мера), сохранить их внутренне (это с миллионами строк), агрегировать (опять же с миллионами строк) и в конечном итоге отправитьрезультат обратно клиенту (XMLA).С нашей стороны сервер в основном готов к получению новых типов;мы хотели поддержать VaR и для этого вам нужно поддерживать матрицы и векторы.Здесь, как и для других поставщиков, речь идет о заинтересованности покупателя.

Теперь для вас определенная проблема, как указывает «iPolvo», может быть решена на уровне измерения или иерархии.Вы можете определить метод вычисления Генерация строки с существующими авторами.

Способ решения зависит от вашего размера.Для производительности, если модель не большая, я бы смоделировал это как одно измерение, где вы можете использовать children ().Нет необходимости иметь факты здесь.С другой стороны, размер ошибки, вы можете построить три измерения, и мы будем непустыми для всех существующих авторов (это может быть не быстро).Вы действительно можете объединить оба ..

Для этого вам необходимо преобразовать

fact1: {"Year": 1997, "Topic" : "AI", "AuthorSet": ["Bill Jones", "Martha X"]}

в

fact1.1: {"Year": 1997, "Topic" : "AI", "Author": "Martha X"}
fact1.2: {"Year": 1997, "Topic" : "AI", "Author": "Bill Jones"}

Bill Anton · Answer 2 · 28 января 2012

Вот что я имел в виду, используя таблицы фактов без фактов ...

FactlessAcademicPaper
   YearKey_FK
   CategoryKey_FK
   AuthorGroupKey_FK

DimYear
   YearKey_PK

DimCategory
   CategoryKey_PK

FactlessAuthorGroup
   AuthorGroupKey_PK
   AuthorKey_PK

DimAuthor
   AuthorKey_PK

Это ...

fact1: {"Year": 1997, "Topic" : "AI", "AuthorSet": ["Bill Jones", "Martha X"]}
fact2: {"Year": 1997, "Topic" : "Linguistics", "AuthorSet": ["John Q", "Sam S"]}
fact3: {"Year": 1997, "Topic" : "Linguistics", "AuthorSet": ["John Q", "Jack X"]}

... становится этим ...

**FactlessAcademicPaper**
   Year:           1997
   Topic:          AI
   AuthorGroupKey: 1

   Year:           1997
   Topic:          Linguistics
   AuthorGroupKey: 2

   Year:           1997
   Topic:          Linguistics
   AuthorGroupKey: 3

**FactlessAuthorGroup**
   AuthorGroupKey: 1
   Author:         Bill Jones

   AuthorGroupKey: 1
   Author:         Martha X

   AuthorGroupKey: 2
   Author:         John Q

   AuthorGroupKey: 2
   Author:         Sam S

   AuthorGroupKey: 3
   Author:         John Q

   AuthorGroupKey: 3
   Author:         Jack X

Теперь, если вы хотите отслеживать множество статей, вы просто добавите их в таблицу FactlessAcademicPaper ...

FactlessAcademicPaper
   YearKey_FK
   CategoryKey_FK
   AuthorGroupKey_FK
   Score
   '1' AS PaperCount

И, как вы можете видеть выше, я добавилвычисляемое поле PaperCount, которое должно облегчать вычисление среднего балла.

Могут ли меры OLAP быть наборами, которые агрегируются через объединение множеств, а не числами, которые агрегируются через сложение?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Могут ли меры OLAP быть наборами, которые агрегируются через объединение множеств, а не числами, которые агрегируются через сложение?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы