Question

Я ищу простой скрипт, который может найти частоты слов для данного документа (возможно, с помощью переносного стеммера).

Есть ли какая-либо библиотека или простой скрипт, который выполняет этот процесс?

MattoTodd · Answer 1 · 20 сентября 2011

использование nltk

import nltk

YOUR_STRING = "Your words"

words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)

tokens = freq_dist.keys()

#50 most frequent
most_frequent = tokens[:50]

#50 least frequent
least_frequent = tokens[-50:]

Roshan Mathews · Answer 2 · 20 сентября 2011

Вы должны быть в состоянии считать слова.Используйте collections.Counter или dict, в зависимости от того, что вам нужно.Эта часть проста, но если это не так, вы можете найти ответ, выполнив поиск по самой SO.

Я думаю, вам также нужен Porter Stemmer, который имеет версию Python на http://tartarus.org/~martin/PorterStemmer/python.txt

Скрипт Python для поиска частот слов данного документа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Скрипт Python для поиска частот слов данного документа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы