Я разрабатываю скрипт, который извлекает сообщения из архива сообщений определенной группы meetup.com, членом которой я являюсь - http://www.meetup.com/opencoffee/messages/archive/
Идея состоит в том, чтобы динамически добавлять их на сайт WordPress и позволять людям искать сообщения, автоматически помечать сообщения и т. Д.
У меня проблема в том, как лучше автоматически классифицировать эти сообщения. Буду рад любым мыслям и идеям о том, как лучше всего это сделать и какой способ программирования был бы наиболее эффективным.
Вариант 1
Найдите источник тегов по тематическим областям, таким как финансы, технологии, бизнес и т. Д., Используя восхитительный API, и найдите связанные теги по теме: -
http://delicious.com/tag/finance
http://delicious.com/tag/technology
если сообщение содержит эти теги, то сообщение относится к соответствующей категории.
Я полагаю, что это может сработать, но не уверен, что наиболее эффективный метод сканирования сообщения на наличие этих тегов.
Вариант 2
Найдите сайты, которые представляют нужные мне категории, такие как ft.com, экономист по финансам и т. Д., Techcrunch по технологии и т. Д., А затем определите, какие теги используются людьми для тегирования этих сайтов, и определите по умолчанию, что эти теги как люди относятся к этим сайтам и их стеку контента.
Вариант 3
Передайте URL-адрес сообщения на http://semanticproxy.com/ (часть проекта Reuters Calais) или используйте Open Calais API. Я пытался это сделать, но без особого успеха, поскольку переменная глубина содержания не всегда достаточна для возврата значимой таксономии.
Вот пример сообщения, которое я проанализировал через API Calais: -
Исходное сообщение
http://www.meetup.com/opencoffee/messages/6045615/
Кале Результат
http://www.mashinteractive.com/opencoffee/calais.php
РЕЗЮМЕ * * тысяча сорок-четырь
Так вот и все. Буду признателен за любые мысли и идеи о методологии и советы о том, как лучше всего подходить к сканированию сообщений для вариантов 1 и 2.
К вашему сведению, на сегодняшний день примерно 1700 сообщений, и я предполагаю, что у меня может быть 10 категорий, каждая из которых определяется 20 или 30 тегами.
Если кто-то хотел бы помочь разработать плагин или класс Wordpress для этого, я был бы более чем рад видеть вас на борту. Имейте в виду, что я не программист, я просто брожу по краям и притворяюсь, что я один.
Заранее спасибо
Jonathan
Генеральный директор
Толпы людей