Ассоциация Rule Mining для набора данных FOAF в социальных сетях - PullRequest
4 голосов
/ 18 апреля 2011

Я работаю над проектом под названием «Обнаружение правил ассоциации из данных социальных сетей: введение интеллектуального анализа данных в семантическую сеть». Может кто-нибудь предложить хороший источник для алгоритма (и его кода. Я слышал, что он может быть реализован с использованием Perl и также пакетов R) для поиска правил ассоциации из базы данных социальной сети?

Снимок базы данных можно получить по следующей ссылке: https://docs.google.com/uc?id=0B0mXGRdRowo1MDZlY2Q0NDYtYjlhMi00MmNjLWFiMWEtOGQ0MjA3NjUyZTE5&export=download&hl=en_US

Набор данных доступен по следующей ссылке: http://ebiquity.umbc.edu/get/a/resource/82.zip

Я много искал в отношении этого проекта, но, к сожалению, пока не могу найти что-то полезное. Следующая ссылка мне показалась несколько связанной:

Уголовные данные: http://www.computer.org/portal/web/csdl/doi/10.1109/CSE.2009.435

Ваша помощь будет высоко оценена.

Спасибо,

Ответы [ 3 ]

4 голосов
/ 18 апреля 2011

Что ж, наиболее широко используемые реализации исходного алгоритма правил ассоциации (первоначально разработанного в IBM Almaden Research Center) - это Apriori и Eclat, в частности реализации C на языке Кристиана Боргельта.

(Краткое резюме для тех, кто не знаком с Правилами ассоциации (также называемыми "Наборы часто встречающихся предметов" или "Анализ корзины товаров"). Прототип приложения для Правил ассоциации анализирует транзакции потребителей, например, данные супермаркетов: среди покупателей, покупающих польские товары колбаса, какой процент из тех, кто также покупает черный хлеб?)

Я бы порекомендовал статистическую платформу, R. Это бесплатный и открытый исходный код, а его репозиторий содержит (как минимум) четыре библиотеки, предназначенные исключительно для Правил ассоциации, все с отличной документацией - три из четыре пакета включают в себя руководство и отдельную виньетка (неофициальный прозаический документ с примерами кода). И руководства, и виньетки содержат множество примеров в коде R.

Я использовал три из четырех пакетов ниже и могу рекомендовать эти три. Среди них есть привязки для Eclat и Apriori. Эти библиотеки распространяются в виде пакетов R, которые доступны в CRAN , основном хранилище пакетов R. Базовая установка и настройка R тривиальна - есть бинарные файлы для Mac, Linux и Windows, доступные по ссылке выше. Аналогично, установка / интеграция пакетов так же проста, как и следовало ожидать от интегрированной платформы (хотя не у каждого из четырех перечисленных ниже пакетов есть бинарные файлы для каждой ОС).

Итак, на CRAN вы найдете эти Пакеты, ориентированные исключительно на Правила Ассоциации:


Этот набор из четырех пакетов R состоит из привязок R для четырех различных реализаций правил ассоциации, а также библиотеки визуализации.

Первый пакет, arules , включает в себя привязки R для Eclat и Apriori. Второй, arulesNBMiner , является привязкой для алгоритма правил ассоциации Майкла Хэслера NB-частые наборы элементов by. Третий, Последовательности arules , - это привязки для cSPADE .

Мохаммеда Заки *.

Последний из них особенно полезен, потому что это библиотека визуализации для вывода результатов любого из трех предыдущих пакетов. Я подозреваю, что для изучения вашей социальной сети вы найдете графическую визуализацию, т. Е. Явную визуализацию узлов (пользователей в наборе данных) и ребер (связей между ними). ​​

2 голосов
/ 31 мая 2011

Это немного шире, чем http://en.wikipedia.org/wiki/Association_rule_learning, но, надеюсь, полезно.

Некоторые ранние работы FOAF, которые могут быть интересны (SVD / PCA и т. Д.):

http://stderr.org/~elw/foaf/ http://www.scribd.com/doc/353326/The-Social-Semantics-of-LiveJournal-FOAF-Structure-and-Change-from-2004-to-2005 http://datamining.sztaki.hu/files/snakdd.pdf

Также гл.4 из http://www.amazon.com/Understanding-Complex-Datasets-Decompositions-Knowledge/dp/1584888326 посвящен применению методов матричной декомпозиции к графовым структурам данных; настоятельно рекомендуется.

Наконец, Apache Mahout - естественный выбор для крупномасштабного интеллектуального анализа данных, машинного обучения и т. Д., https://cwiki.apache.org/MAHOUT/dimensional-reduction.html

0 голосов
/ 15 апреля 2012

Если вам нужен Java-код, вы можете проверить мой веб-сайт на наличие программного обеспечения SPMF.Он предоставляет исходный код для более чем 45 алгоритмов для частого анализа наборов элементов, анализа ассоциаций, последовательного анализа шаблонов и т. Д.

Кроме того, он предоставляет не только самые популярные алгоритмы.Он также предлагает множество вариантов, таких как добыча редких наборов элементов, наборов элементов с высокой полезностью, неопределенных наборов элементов, правил не избыточных ассоциаций, правил закрытых ассоциаций, правил непрямых ассоциаций, правил ассоциации топ-k и многого другого ...

...