Любые идеи о том, как реализовать систему кластеризации тегов Flickr? (желательно в Rails) - PullRequest
2 голосов
/ 26 июня 2009

Я в основном просто ищу обсуждение подходов к тому, как перейти от децентрализованных, ненормализованных, полностью открытых пользовательских тегов, чтобы начать понимать все это, объединяя их в те семантические группы, которые они назвали " кластеры».

Требуются ли реальные люди, чтобы выяснить, что люди на самом деле имеют в виду под используемыми тегами, или это можно сделать, просто автоматически проанализировав, как часто теги объединяются?

Такого рода вещи. Не стесняйтесь подробно рассказывать :) (Кроме того, если бы это обсуждалось в другом месте, я хотел бы услышать об этом).

Ответы [ 2 ]

3 голосов
/ 26 июня 2009

Прочтите эту статью: Автоматизированная кластеризация тегов .Он содержит хороший обзор существующих подходов и описывает алгоритмы кластеризации тегов.

1 голос
/ 31 октября 2009

Алгоритмы Интеллектуальной Сети (Мэннинг) (особенно Глава 4) и книга с аналогичным названием из О'Рейли охватывают алгоритмы кластеризации. Книга Мэннинга начинается с наивных подходов SQL и переходит к K-means, ROCK и DBSCAN. Он более обобщенный, чем просто фокусировка на тегах, но его легко применять в этом контексте. Код представлен на Java, но его легко адаптировать к Ruby (иногда проще, чем адаптировать код Java к вашей проблеме).

Глава 5 посвящена классификациям, посвященным построению топологий, и обсуждает байесовские алгоритмы.

...