Бизнес-аналитика (BI) на данных Википедии - PullRequest
1 голос
/ 23 августа 2010

Введение
Я BI наркоман и хотел бы разработать проект для детализации данных Википедии.
Я написал бы сценарии для извлечения данных из dbpedia (вероятно, начиная с статей о людях) и загрузки их в таблицу людей.

Мой вопрос:
Кто-нибудь делал это раньше? Еще лучше, есть сообщество, посвященное этому?
Если бы сценарии были где-то, я бы предпочел внести в них вклад, а не переписать их.

Просто пример:
В кубе людей OLAP я могу выполнить детализацию по имени, выбрать детализацию «Remi», проверить, в каких областях используется это имя, а затем для всех областей развернуть по полу, чтобы проверить, где это имя популярно девушки и где это популярно для мальчиков. Для каждого из них я могу развернуть время, чтобы увидеть тенденции. Вы не можете проводить такое расследование без инструмента BI, или это займет несколько дней вместо секунд.

Ответы [ 3 ]

1 голос
/ 23 августа 2010

Проверьте Mahout, который является распределенной библиотекой машинного обучения.В одном из примеров используется дамп википедии

https://cwiki.apache.org/MAHOUT/wikipedia-bayes-example.html http://mahout.apache.org

Я не знаком с точными деталями бизнес-аналитики, однако машинное обучение связано с поискомсоответствующие шаблоны и кластеризация информации вместе.По крайней мере, это должно привести пример загрузки вики в память и выполнения некоторых простых и не очень простых вещей с данными.

0 голосов
/ 17 декабря 2010

Хотите сервер OLAP с открытым исходным кодом для этого?

Вам нужно настроить БД для ваших наборов данных или, скорее, использовать файлы? Нам (на сайте www.icCube.com) не нужны БД для настройки наших кубов.

Насколько велики ваши наборы данных?

0 голосов
/ 22 ноября 2010

Вы можете настроить сервер virtuoso (есть версия с открытым исходным кодом) и загрузить наборы данных dbpedia на локальный компьютер и использовать virtuoso в качестве "БД SQL" сSPARQL (имеет интерфейс jdbc)

из вашего примера вы можете загрузить только наборы данных "ontology infobox *" и "raw infobox *"

...