Python NLTK FreqDist - список слов с частотой больше 1000 - PullRequest
0 голосов
/ 12 марта 2020

Я пытаюсь вывести каждое слово, которое появляется в моих токенах более 1000 раз (> 1000), и сохранить его в freq1000.

freq1000 = []

newtokens = []

for words in tokens:
    newtokens += words
FreqDist(newtokens)

fd_1 = FreqDist(newtokens)

for i in set(fd_1):
    if fd_1.count(i) == >1000:
        print(i)

Это мой текущий код, я полностью застрял после этого, и я не уверен, есть ли функция freqdist, которую я могу использовать, чтобы помочь. Я успешно сохранил FreqDist в fd_1. Я просто не уверен, как получить вывод слов, которые появляются более 1000 раз, и сохранить его в freq1000.

Буду признателен за любую помощь.

1 Ответ

1 голос
/ 12 марта 2020

Вы можете отфильтровать слова на основе подсчета частоты, используя freqDist.items(), как показано ниже:

list(filter(lambda x: x[1]>=1000, fd_1.items()))

Надеюсь, это поможет:)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...