Метка части речи на основе преобразования (маркировка по Брилу) - PullRequest
5 голосов
/ 26 февраля 2010

Каковы слабые и сильные стороны Brill Tagger? Можете ли вы предложить некоторые возможные улучшения для тегера?

Ответы [ 2 ]

7 голосов
/ 28 февраля 2010

Самая большая слабость метки Brill - это время, необходимое для фазы обучения (посмотрите на отметки времени для ACOPOST здесь или попробуйте реализовать одну с помощью NLTK чтобы получить представление). Помните, что вы всегда должны рассматривать тегер Brill как последний тегер, который будет использоваться в последовательности систем тегирования (для простого тегирования я обычно использую и обучаю тегер Brill на выходе тегера HMM). Помимо увеличения продолжительности фазы обучения, использование самого тегера Brill обычно приводит к очень большому, обычно перекрывающемуся и иногда «неправильному» набору правил (т. Е. Правилам, которые в «истинных» контекстах тегирования тормозят многие правильные теги). 1005 *

Самой сильной стороной тега Brill является тот факт, что его модель имеет смысл, в частности, когда вы храните правила в удобочитаемом формате, как это обычно делается. Ручная проверка модели статистического тегера является утомительной, подверженной ошибкам и не очень полезной, в то время как набор правил преобразования можно не только понять и настроить вручную, но это могут сделать даже люди, не имеющие предыдущего опыта в НЛП ( на самом деле, я сделал это несколько лет назад, когда некоторые студенты языковой программы оценивали правила, разработанные в бразильском корпусе Portugues. На самом деле, вы даже можете самостоятельно написать набор правил.

Короче говоря, хотя метка Brill полезна в качестве последнего шага в надежной системе каскадных меток, в общем, это не лучшая альтернатива для использования сама по себе (если вы хотите использовать один метщик, я бы посоветовал пойти с HMM один). Мое предложение состоит в том, чтобы обучить и использовать тегер Brill на выходе с тегами другого тегера, предпочтительно комбинированной системы, такой как один для голосования (т. Е. При настройке трех или четырех различных тегеров используйте систему голосования, чтобы выбрать лучший тег для каждого токена. и только затем передайте эти результаты метке Brill, которая, мы надеемся, исправит наиболее распространенные ошибки предыдущей системы).

1 голос
/ 02 декабря 2015

Некоторые предложения по улучшению тегера Брилла были представлены в статьях «Независимость и приверженность: предположения для быстрого обучения и выполнения POS-тегеров на основе правил» и «Обучение на основе трансформации в быстрой полосе». Кроме того, инструментарий POS и морфологических тегов на основе правил RDRPOSTagger также предоставляет улучшения для тегера Брилла, где основанные на преобразовании правила хранятся в форме двоичного дерева решений. Таким образом, RDRPOSTagger обеспечивает очень быструю производительность обучения и меток с большей точностью, чем у Брилла. Смотрите результаты здесь .

...