Не ясно, какой токенизатор вы хотите.Там нет ни одного под названием PunktWordTokenizer
больше.Он был внутренним и не должен был быть публичным.Вот почему вы не можете импортировать это имя.Два класса с именами, ближайшими к этому, называются WordPunctTokenizer
и PunktSentenceTokenizer
.
Импортируйте правильное имя, и оно будет работать:
>>> import nltk
>>> from nltk.tokenize import WordPunctTokenizer
>>> tokenizer = WordPunctTokenizer()
>>> tokenizer.tokenize("Can't is a contraction.")
['Can', "'", 't', 'is', 'a', 'contraction', '.']
Поскольку вы говорите, что ищете токенизированных предложений , тогда, может быть, это другое, которое вы хотите:
>>> from nltk.tokenize import PunktSentenceTokenizer
>>> tokenizer = PunktSentenceTokenizer()
>>> tokenizer.tokenize("Can't is a contraction.")
["Can't is a contraction."]
>>> tokenizer.tokenize("Can't is a contraction. So is hadn't.")
["Can't is a contraction.", "So is hadn't."]