Я борюсь с табулированием условного распределения частот для биграмм в Python 3.7.5. У меня есть около 60 текстов, и я могу успешно визуализировать результаты, используя команду .plot
.
Вот код для ConditionalFreqDist, который работает с построением графиков:
cfd = nltk.ConditionalFreqDist(
(textname, bigen)
for textname in eng_corpus.fileids()
for bigen in nltk.bigrams([w.lower() for w in eng_corpus.words(fileids=textname) if w not in engstops and w.isalnum()]))
Однако, когда япопробуйте подвести итог, я получаю это:
>>> cfd.tabulate()
Traceback (most recent call last):
File "<pyshell#185>", line 1, in <module>
cfd.tabulate()
File "C:\Users\gavrk\AppData\Local\Programs\Python\Python37-32\lib\site-packages\nltk\probability.py", line 1979, in tabulate
width = max(len("%s" % s) for s in samples)
File "C:\Users\gavrk\AppData\Local\Programs\Python\Python37-32\lib\site-packages\nltk\probability.py", line 1979, in <genexpr>
width = max(len("%s" % s) for s in samples)
TypeError: not all arguments converted during string formatting
Я новичок в Python, поэтому любая помощь будет оценена ...