использование методов NLTK, таких как токенизация аннотированного текста - PullRequest
1 голос
/ 03 ноября 2019

Скажем, у меня есть корпус аннотированного текста, где предложение выглядит примерно так:

txt = 'red foxes <emotion>scare</emption> me.'

возможно ли это токенизировать с помощью word_tokenize таким образом, что мы получаем:

['red', 'foxes', '<emotion>scare<emotion>', 'me', '.']

Мы могли бы использовать альтернативную схему аннотации, скажем:

txt = 'red foxes scare\_EMOTION me'

Возможно ли это сделать с помощью NLTK - в настоящее время я анализирую аннотации, а затем отслеживаю их вне диапазона, и это очень громоздко.

1 Ответ

2 голосов
/ 03 ноября 2019

Для достижения желаемого результата вам не нужно nltk.

Просто запустите txt.split()

Если вы настаиваете на использовании nltk, проверьте другой токенизаторы .

PunktWordTokenizer и WhitespaceTokenizer подходят.

...