Табулирование распределения частот для биграмм - PullRequest
0 голосов
/ 10 ноября 2019

Я борюсь с табулированием условного распределения частот для биграмм в Python 3.7.5. У меня есть около 60 текстов, и я могу успешно визуализировать результаты, используя команду .plot.

Вот код для ConditionalFreqDist, который работает с построением графиков:

cfd = nltk.ConditionalFreqDist(
    (textname, bigen)
    for textname in eng_corpus.fileids()
    for bigen in nltk.bigrams([w.lower() for w in eng_corpus.words(fileids=textname) if w not in engstops and w.isalnum()]))

Однако, когда япопробуйте подвести итог, я получаю это:

>>> cfd.tabulate()
Traceback (most recent call last):
  File "<pyshell#185>", line 1, in <module>
    cfd.tabulate()
  File "C:\Users\gavrk\AppData\Local\Programs\Python\Python37-32\lib\site-packages\nltk\probability.py", line 1979, in tabulate
    width = max(len("%s" % s) for s in samples)
  File "C:\Users\gavrk\AppData\Local\Programs\Python\Python37-32\lib\site-packages\nltk\probability.py", line 1979, in <genexpr>
    width = max(len("%s" % s) for s in samples)
TypeError: not all arguments converted during string formatting

Я новичок в Python, поэтому любая помощь будет оценена ...

...