Скажем, у меня есть корпус аннотированного текста, где предложение выглядит примерно так:
txt = 'red foxes <emotion>scare</emption> me.'
возможно ли это токенизировать с помощью word_tokenize таким образом, что мы получаем:
['red', 'foxes', '<emotion>scare<emotion>', 'me', '.']
Мы могли бы использовать альтернативную схему аннотации, скажем:
txt = 'red foxes scare\_EMOTION me'
Возможно ли это сделать с помощью NLTK - в настоящее время я анализирую аннотации, а затем отслеживаю их вне диапазона, и это очень громоздко.