Я пишу программу чтения RSS на python в качестве учебного упражнения, и мне бы очень хотелось иметь возможность помечать отдельные записи ключевыми словами для поиска. К сожалению, большинство реальных каналов не содержат метаданных ключевых слов. В настоящее время в моей тестовой базе данных содержится около 60000 записей из 600 каналов, поэтому ручная пометка не будет эффективной. Пока мне удалось найти только два решения:
1: используйте Natural Language Toolkit для извлечения ключевых слов:
- Плюсы: гибкий; нет зависимости от внешних сервисов;
- Минусы: можно индексировать только резюме статьи, но не статью; нетривиально: написание высококачественного инструмента для извлечения ключевых слов - проект сам по себе;
2: используйте Google Adwords API , чтобы получить предложения по ключевым словам из ссылки на статью:
- Плюсы: супер-качественные ключевые слова; на основе всего текста статьи; прост в использовании;
- Минусы: не бесплатно (?); Пределы скорости запросов неизвестны; Я боюсь, что мой аккаунт забанят и не смогут запускать рекламные кампании для моих коммерческих сайтов;
Может кто-нибудь предложить какие-либо предложения? Неужели мои опасения по поводу запрета моей учетной записи AdWords безосновательны?