Должен ли Чанкер найти заголовок фразы? - PullRequest
0 голосов
/ 03 августа 2011

Мое приложение требует, чтобы я указывал на заголовок фразы (noum или глагол).У меня есть такая информация в моем португальском корпусе:

Me pron-pers * B-NPпергунто в-фин B-VPsemper adv * B-ADVPquem pron-indp * B-NPПодиа V-Фин B-VPтер в-инф I-VPsido v-pcp I-VPакеле прон-дет б-нпJovem прил. I-NPalemão n * I-NP,,О

Синтаксис похож на CONLL 2000, но * обозначает заголовок фразы.Мой вопрос: должен ли Chunker поддерживать голову?Знаете ли вы какой-либо другой корпус для обучения Чункера, который также включает в себя голову, или это моя особенность?

- правка -

Я пытался обучить классификатор и получил хорошие результаты:Счет F1 был 0,94 без метки головы и 0,93 с ним.Я думаю, что все в порядке.Проблема в том, что API чанкера OpenNLP не поддерживает эту метку и запутывается при создании пролетов.Я изменил код OpenNLP, чтобы справиться с ним, и мне было интересно, если это хороший патч, но так как он не распространен, я не должен отправлять патч.

1 Ответ

2 голосов
/ 04 августа 2011

Я никогда не видел чанкер, который поддерживает поиск головы, поэтому я не могу помочь вам с корпусом.Что вы можете сделать, если у вас уже есть чанкер, - это сформулировать набор правил, которые обозначают голову после того, как чанкер его обнаружил, или обучить классификатор для этого.Вы можете обучить его в своем корпусе и применить его к выходу чанкера.

...