pos_tag терпит неудачу на тексте во ВСЕХ CAPS - PullRequest
0 голосов
/ 24 ноября 2011

Я работаю с текстом, который, к сожалению, указан во ВСЕХ КОПИЯХ.Функция nltk.pos_tag по умолчанию не очень хорошо справляется с этим текстом (она считает, что все существительное).

Как лучше всего решить эту проблему?

1 Ответ

2 голосов
/ 24 ноября 2011

Лучше всего будет применить truecasing к вашему тексту перед POS-тегами.

Если это слишком много для вас, вы можете преобразовать строку Python x, чтобы уменьшитьсимволы, использующие x.lower(), что должно, по крайней мере, избежать проблемы получения только правильных именных тегов (хотя могут быть некоторые путаницы с слишком менее правильными именными тегами).

Вы можете обучить POS-Tagger, преобразовавпомеченный ранее как корпус lower, но если вы хотите получить наилучшие результаты, вы, вероятно, захотите использовать истинный корпус.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...