Обнаружение дублирующих тегов - PullRequest
0 голосов
/ 28 апреля 2011

У меня есть сайт, который позволяет пользователям открыто добавлять теги к своим элементам перед отправкой, аналогично тому, что делает Delicious.com:

... пользователи могут отмечать каждую из своих закладок свободно выбранными условиями индекса...

Я хочу обнаружить орфографические ошибки и теги, которые похожи или могут принадлежать к той же группе.

Например, если кто-то помечает что-то как футбольный клуб «Арсенал», это то же самое, что «Арсенал», «Арсенал», «Стрелки» и / или «Стрелки».Я хочу увидеть, какой тег используется чаще всего, а затем изменить его на / или создать группу, которая включает в себя все эти теги, что-то вроде Арсенала.

Я хотел бы использовать http://www.freebase.com/ API, или http://www.elasticsearch.org/, но они кажутся излишними.Я также знаю кое-что под названием http://en.wikipedia.org/wiki/Collective_intelligence.

О, и я использую PHP и MySQL.

Моя структура таблицы выглядит следующим образом:

Item, Item_Tags, Tag

В сущности, будучи ленивым программистом, кто-то уже сделал что-то подобное, что я могу просто скопировать изменить для своего кода?

Какие ваши предложения ТАК?

1 Ответ

1 голос
/ 28 апреля 2011

Может быть, вы можете использовать поиск MySQL SOUNDS LIKE:

SELECT id, tag FROM tags WHERE tag SOUNDS LIKE 'Shaw'

Это также даст вам тег типа 'Saw'.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...