Стоп-слово и стеммер в питоне - PullRequest
4 голосов
/ 07 октября 2010

У меня есть довольно большой документ, и я хочу сделать исключение стоп-слов и использовать слова этого документа в Python.Кто-нибудь знает пакет полки для них?Если не код, который достаточно быстр для больших документов, также приветствуется.Спасибо

Ответы [ 2 ]

8 голосов
/ 07 октября 2010

NLTK поддерживает это.

4 голосов
/ 07 октября 2010

Если по какой-то причине вы не хотите использовать NLTK, вы можете попробовать PyStemmer. Для стоп-слов просто скачайте список (Google) и отфильтруйте их.

...