Мое приложение требует, чтобы я указывал на заголовок фразы (noum или глагол).У меня есть такая информация в моем португальском корпусе:
Me pron-pers * B-NPпергунто в-фин B-VPsemper adv * B-ADVPquem pron-indp * B-NPПодиа V-Фин B-VPтер в-инф I-VPsido v-pcp I-VPакеле прон-дет б-нпJovem прил. I-NPalemão n * I-NP,,О
Синтаксис похож на CONLL 2000, но * обозначает заголовок фразы.Мой вопрос: должен ли Chunker поддерживать голову?Знаете ли вы какой-либо другой корпус для обучения Чункера, который также включает в себя голову, или это моя особенность?
- правка -
Я пытался обучить классификатор и получил хорошие результаты:Счет F1 был 0,94 без метки головы и 0,93 с ним.Я думаю, что все в порядке.Проблема в том, что API чанкера OpenNLP не поддерживает эту метку и запутывается при создании пролетов.Я изменил код OpenNLP, чтобы справиться с ним, и мне было интересно, если это хороший патч, но так как он не распространен, я не должен отправлять патч.