Информатика таксономии - PullRequest
4 голосов
/ 07 июня 2010

Я занимаюсь разработкой веб-приложения, в котором у пользователей есть коллекция тегов.Мне нужно создать список предложений для пользователей на основе сходства их тегов.
Например, когда пользователь входит в систему, система получает его теги и выполняет поиск этих тегов в базе данных пользователей и показывает пользователей, имеющих похожие теги.Например, если Пользователь 1 имеет следующие теги [ Linux, Apache, MySQL, PHP ] и Пользователь 2 имеет [ Windows, IIS, PHP, MySQL ] там написано, что Пользователь 2 соответствует Пользователь 1 с весом 50%, потому что у него есть 2 похожих тега ( PHP и MySQL ).
Но представьте себе ситуацию, когда Пользователь 1 имеет [ ASP, IIS, MS Access ] и Пользователь 2 имеет [ PHP, Apache, MySQL ].В этой ситуации моя система не предлагает Пользователь 2 как " друг " для Пользователь 1 или наоборот.Но мы знаем, что эти два пользователя имеют сходство в области работы, оба работают в области веб-технологий (или веб-программирования и т. Д.).
Итак, именно поэтому мне нужна разновидность таксономии информатики (сейчас, но, вероятно, мне понадобится таксономия и в других областях, таких как медицина, физика, математика и т. Д.), Где эти понятия классифицируются и поэтомуЯ ищу сходство ASP и PHP . Например, можно сказать, что они имеют сходство и принадлежат к одной группе (иликатегория).
Надеюсь, я четко описал свою проблему, но если что-то неправильно объясню, буду рад вашим исправлениям.
Спасибо

Ответы [ 4 ]

4 голосов
/ 07 июня 2010

Не думаю, что на самом деле нужна таксономия. Имея достаточно данных, вы сможете выполнить кластерный анализ на полях и вывести взаимосвязи между тегами. См. этот документ по автоматической кластеризации тегов для некоторых деталей. Если вы не думаете, что кластеризация и анализ тегов на основе тегов помогут вам достичь желаемого, посмотрите на Flickr.

В качестве альтернативы, если вы считаете, что необходима таксономия, рассмотрите возможность использования SKOS. Если вы можете привязать свои теги к SKOS, вы можете выполнить такой анализ для них. Два источника данных SKOS, которые вы можете найти особенно полезными: Предметные рубрики Библиотеки Конгресса и DbPedia . Если у вас есть дополнительные вопросы об использовании SKOS, попробуйте SemanticOverflow .

2 голосов
/ 07 июня 2010

Сгенерировать некоторые с помощью наборов Google? Было бы сложнее получить больший набор данных, чем этот:

http://labs.google.com/sets

2 голосов
/ 07 июня 2010

Если эти термины появляются на форуме или что-то в этом роде, вы можете использовать Скрытый семантический анализ для построения кластеров терминов.

1 голос
/ 07 июня 2010

Вам необходимо создать отношения между тегами. Я не верю, что это можно сделать автоматически. Вы должны создать базу данных, которая говорит sql = mysql = postgresql = oracle, asp = jsp = php и так далее Таким образом, вы создаете некоторые виды групп тегов. Теги могут быть в нескольких отношениях.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...