Лучше всего будет применить truecasing к вашему тексту перед POS-тегами.
Если это слишком много для вас, вы можете преобразовать строку Python x
, чтобы уменьшитьсимволы, использующие x.lower()
, что должно, по крайней мере, избежать проблемы получения только правильных именных тегов (хотя могут быть некоторые путаницы с слишком менее правильными именными тегами).
Вы можете обучить POS-Tagger, преобразовавпомеченный ранее как корпус lower
, но если вы хотите получить наилучшие результаты, вы, вероятно, захотите использовать истинный корпус.