Использование контекста для улучшения маркировки части речи - PullRequest
5 голосов
/ 21 января 2012

Существуют ли распространенные или рекомендуемые методы использования контекста слова для повышения точности пометки части речи?

Например, если бы у меня было предложение:

Я играл в гольф по ссылкам.

Слово «ссылки» может быть как единственное (поле для гольфа), так и во множественном числе.Я попробовал это предложение в нескольких программах проверки грамматики, и все они правильно определили предложение как действительное.

Проблема в том, что они также думали, что это предложение действительно:

Я нажал на ссылки.

Есть ли хороший способ использовать контекст (щелкнул по сравнению с игрой в гольф), чтобы вывести правильную часть речи?

Спасибо!

1 Ответ

2 голосов
/ 21 января 2012

Определение того, является ли «ссылки» «полем для гольфа» или «ссылками», - это задача, называемая устранение слов и слов . Вот что статья Википедии о двусмысленности слова говорит о связи с пометкой части речи:

В любом реальном тесте тегирование части речи и смысловое тегирование очень тесно связаны друг с другом, потенциально ограничивая друг друга. И вопрос о том, должны ли эти задачи храниться вместе или развязываться, до сих пор не решен единогласно, но в последнее время ученые склонны проверять эти вещи отдельно (например, в конкурсах Senseval / SemEval части речи приводятся в качестве входных данных для устранения неоднозначности). Поучительно сравнить проблему устранения неоднозначности смысла слова с проблемой пометки части речи. Оба включают двусмысленность или пометку словами, будь то чувства или части речи. Однако алгоритмы, используемые для одного, не имеют тенденцию работать хорошо для другого, главным образом потому, что часть речи слова в основном определяется непосредственно смежными от одного до трех слов, тогда как смысл слова может быть определен словами, находящимися дальше , Коэффициент успешности для алгоритмов маркировки части речи в настоящее время намного выше, чем для WSD, при этом уровень точности составляет около 95% или выше по сравнению с точностью менее 75% в устранении неоднозначности в смысле слова при контролируемом обучении , Эти цифры типичны для английского языка и могут сильно отличаться от данных для других языков.

Мне не известны работы, в которых WSD используется для информирования POS-тегов (однако использование POS-тегов для информирования WSD является стандартом.) Для меня это звучит неплохо, даже если выгода от точности будет небольшой, поскольку Точность уже высока. Это может быть реализовано как функция в теггере Toutanova's CRF.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...