У меня проблемы с NLTK под Python, в частности с методом .generate ().
генерировать (self, length = 100)
Печать произвольного текста, созданного с использованием модели языка триграмм.
Параметры:
* length (int) - The length of text to generate (default=100)
Вот упрощенная версия того, что я пытаюсь сделать.
import nltk
words = 'The quick brown fox jumps over the lazy dog'
tokens = nltk.word_tokenize(words)
text = nltk.Text(tokens)
print text.generate(3)
Это будет всегда генерировать
Building ngram index...
The quick brown
None
В отличие от построения случайной фразы из слов.
Вот мой вывод, когда я делаю
print text.generate()
Building ngram index...
The quick brown fox jumps over the lazy dog fox jumps over the lazy
dog dog The quick brown fox jumps over the lazy dog dog brown fox
jumps over the lazy dog over the lazy dog The quick brown fox jumps
over the lazy dog fox jumps over the lazy dog lazy dog The quick brown
fox jumps over the lazy dog the lazy dog The quick brown fox jumps
over the lazy dog jumps over the lazy dog over the lazy dog brown fox
jumps over the lazy dog quick brown fox jumps over the lazy dog The
None
Снова начинаем с того же текста, но затем меняем его. Я также пытался использовать первую главу из Оруэлла 1984 года. Опять же, всегда начинается с первых 3 токенов (в данном случае один из них пробел), а , затем продолжается случайным образом генерировать текст.
Что я здесь не так делаю?