Скрипт Python для поиска частот слов данного документа - PullRequest
0 голосов
/ 20 сентября 2011

Я ищу простой скрипт, который может найти частоты слов для данного документа (возможно, с помощью переносного стеммера).

Есть ли какая-либо библиотека или простой скрипт, который выполняет этот процесс?

Ответы [ 2 ]

2 голосов
/ 20 сентября 2011

использование nltk

import nltk

YOUR_STRING = "Your words"

words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)

tokens = freq_dist.keys()

#50 most frequent
most_frequent = tokens[:50]

#50 least frequent
least_frequent = tokens[-50:]
0 голосов
/ 20 сентября 2011

Вы должны быть в состоянии считать слова.Используйте collections.Counter или dict, в зависимости от того, что вам нужно.Эта часть проста, но если это не так, вы можете найти ответ, выполнив поиск по самой SO.

Я думаю, вам также нужен Porter Stemmer, который имеет версию Python на http://tartarus.org/~martin/PorterStemmer/python.txt

...