Какой токенизатор NLTK хорош перед тегированием POS?

NLTK имеет несколько токенизаторов, как показано ниже

treebankWordTokenizer
WordPunctTokenizer
PunctWordTokenizer
WhitespaceTokenizer
TweetTokenizer
RegexpTokenizer - настраиваемое разделение регулярных выражений, например: word- "[\ w '] +"

Для задачи распознавания «части речи» (возможно, с использованием теггера перцептрона nltk-Average) , есть ли токенизатор, который может дать оптимальные результаты?

Какой токенизатор NLTK хорош перед тегированием POS?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какой токенизатор NLTK хорош перед тегированием POS?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы