Как программно сгенерировать соответствующие теги для базы данных URL? - PullRequest
5 голосов
/ 17 января 2011

Я пишу программу чтения RSS на python в качестве учебного упражнения, и мне бы очень хотелось иметь возможность помечать отдельные записи ключевыми словами для поиска. К сожалению, большинство реальных каналов не содержат метаданных ключевых слов. В настоящее время в моей тестовой базе данных содержится около 60000 записей из 600 каналов, поэтому ручная пометка не будет эффективной. Пока мне удалось найти только два решения:

1: используйте Natural Language Toolkit для извлечения ключевых слов:

  • Плюсы: гибкий; нет зависимости от внешних сервисов;
  • Минусы: можно индексировать только резюме статьи, но не статью; нетривиально: написание высококачественного инструмента для извлечения ключевых слов - проект сам по себе;

2: используйте Google Adwords API , чтобы получить предложения по ключевым словам из ссылки на статью:

  • Плюсы: супер-качественные ключевые слова; на основе всего текста статьи; прост в использовании;
  • Минусы: не бесплатно (?); Пределы скорости запросов неизвестны; Я боюсь, что мой аккаунт забанят и не смогут запускать рекламные кампании для моих коммерческих сайтов;

Может кто-нибудь предложить какие-либо предложения? Неужели мои опасения по поводу запрета моей учетной записи AdWords безосновательны?

Ответы [ 2 ]

2 голосов
/ 17 января 2011

Существует ряд бесплатных и коммерческих инструментов / услуг для текстовых аннотаций, которые вы можете рассмотреть, в зависимости от ваших конкретных потребностей, перечисленных в:

Есть ли лучший инструмент, чем OpenCalais? .

Некоторые из них предоставляют объекты, некоторые обеспечивают меру релевантности ключевых слов, а другие предоставляют теги тем.

1 голос
/ 17 января 2011

Вы можете использовать вкусные рекомендуемые теги API .

Пример использования API через Python http://www.michael -noll.com / projects / tasty-python-api /

Другая альтернатива - Открытый кале

...