Какой токенизатор NLTK хорош перед тегированием POS? - PullRequest
0 голосов
/ 27 мая 2020

NLTK имеет несколько токенизаторов, как показано ниже

  1. treebankWordTokenizer
  2. WordPunctTokenizer
  3. PunctWordTokenizer
  4. WhitespaceTokenizer
  5. TweetTokenizer
  6. RegexpTokenizer - настраиваемое разделение регулярных выражений, например: word- "[\ w '] +"

Для задачи распознавания «части речи» (возможно, с использованием теггера перцептрона nltk-Average) , есть ли токенизатор, который может дать оптимальные результаты?

...