Умный способ построения облака тегов? - питон - PullRequest
4 голосов
/ 21 марта 2010

Я создал агрегатор контента и хотел бы добавить облако тегов, отражающее текущие тенденции.

К сожалению, это довольно сложно, так как мне приходится искать ключевых слов , которые представляют контекст каждой статьи.

Например, такие слова, как I , было , , удивительно , приятно не имеют отношения к контексту.


Помощь будет высоко ценится! :)

Ответы [ 2 ]

9 голосов
/ 21 марта 2010

Используйте NLTK и, в частности, его Корпус стоп-слов :

Помимо обычных слов это еще один класс слов, называемых стоп слова, которые выполняют важные грамматические функции, но вряд ли будет интересно самих себя. Они включают предлоги, комплементайзеры и определители. НЛТК поставляется в комплекте с Стопворд корпус, список 2400 остановить слова через 11 разных языки (включая английский).

2 голосов
/ 21 марта 2010

NLTK может помочь вам проанализировать содержание, чтобы выбрать соответствующие термины.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...