Question

Как суммировать частоту слов, используя fd.items () из FreqDist?

>>> fd = FreqDist(text) 
>>> most_freq_w = fd.keys()[:10] #gives me the most 10 frequent words in the text
>>> #here I should sum up numbers of each of these 10 freq words appear in the text

например, если каждое слово в most_freq_w встречается 10 раз, результат должен быть 100

!!! Мне не нужно это количество всех слов в тексте, только 10 самых частых

Steve Tjoa · Answer 1 · 17 ноября 2010

Я не знаком с nltk, но поскольку FreqDist происходит от dict, то должно работать следующее:

v = fd.values()
v.sort()
count = sum(v[-10:])

Steve · Answer 2 · 19 ноября 2015

Имеет красивую функцию печати

    fd.pprint()

сделает это.

Aakash Anuj · Answer 3 · 11 августа 2013

Чтобы узнать, сколько раз слово появляется в корпусе (ваш текст):

raw="<your file>"
tokens = nltk.word_tokenize(raw)
fd = FreqDist(tokens)
print fd['<your word here>']

jfs · Answer 4 · 17 ноября 2010

Если FreqDist - отображение слов на их частоты:

sum(map(fd.get, most_freq_w))

Суммируйте количество слов по частоте, используя FreqDist, python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Суммируйте количество слов по частоте, используя FreqDist, python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы