Автоматическая категоризация контента - PullRequest
3 голосов
/ 04 мая 2009

Я разрабатываю скрипт, который извлекает сообщения из архива сообщений определенной группы meetup.com, членом которой я являюсь - http://www.meetup.com/opencoffee/messages/archive/

Идея состоит в том, чтобы динамически добавлять их на сайт WordPress и позволять людям искать сообщения, автоматически помечать сообщения и т. Д.

У меня проблема в том, как лучше автоматически классифицировать эти сообщения. Буду рад любым мыслям и идеям о том, как лучше всего это сделать и какой способ программирования был бы наиболее эффективным.

Вариант 1

Найдите источник тегов по тематическим областям, таким как финансы, технологии, бизнес и т. Д., Используя восхитительный API, и найдите связанные теги по теме: -

http://delicious.com/tag/finance

http://delicious.com/tag/technology

если сообщение содержит эти теги, то сообщение относится к соответствующей категории.

Я полагаю, что это может сработать, но не уверен, что наиболее эффективный метод сканирования сообщения на наличие этих тегов.

Вариант 2

Найдите сайты, которые представляют нужные мне категории, такие как ft.com, экономист по финансам и т. Д., Techcrunch по технологии и т. Д., А затем определите, какие теги используются людьми для тегирования этих сайтов, и определите по умолчанию, что эти теги как люди относятся к этим сайтам и их стеку контента.

Вариант 3

Передайте URL-адрес сообщения на http://semanticproxy.com/ (часть проекта Reuters Calais) или используйте Open Calais API. Я пытался это сделать, но без особого успеха, поскольку переменная глубина содержания не всегда достаточна для возврата значимой таксономии.

Вот пример сообщения, которое я проанализировал через API Calais: -

Исходное сообщение

http://www.meetup.com/opencoffee/messages/6045615/

Кале Результат

http://www.mashinteractive.com/opencoffee/calais.php

РЕЗЮМЕ * * тысяча сорок-четырь

Так вот и все. Буду признателен за любые мысли и идеи о методологии и советы о том, как лучше всего подходить к сканированию сообщений для вариантов 1 и 2.

К вашему сведению, на сегодняшний день примерно 1700 сообщений, и я предполагаю, что у меня может быть 10 категорий, каждая из которых определяется 20 или 30 тегами.

Если кто-то хотел бы помочь разработать плагин или класс Wordpress для этого, я был бы более чем рад видеть вас на борту. Имейте в виду, что я не программист, я просто брожу по краям и притворяюсь, что я один.

Заранее спасибо

Jonathan Генеральный директор

Толпы людей

1 Ответ

1 голос
/ 25 июня 2009

Вы можете попробовать Zemanta , который имеет инструменты и плагины (включая Wordpress) для автоматической пометки содержимого, а также взглянуть на Общий тег , словарь для выражения тегов контента с использованием RDFa, семантического веб-стандарта, в настоящее время индексируемого некоторыми поисковыми системами.

...