NLTK имеет несколько токенизаторов, как показано ниже
- treebankWordTokenizer
- WordPunctTokenizer
- PunctWordTokenizer
- WhitespaceTokenizer
- TweetTokenizer
- RegexpTokenizer - настраиваемое разделение регулярных выражений, например: word- "[\ w '] +"
Для задачи распознавания «части речи» (возможно, с использованием теггера перцептрона nltk-Average) , есть ли токенизатор, который может дать оптимальные результаты?