Question

Каковы слабые и сильные стороны Brill Tagger? Можете ли вы предложить некоторые возможные улучшения для тегера?

Giacomo · Answer 1 · 28 февраля 2010

Самая большая слабость метки Brill - это время, необходимое для фазы обучения (посмотрите на отметки времени для ACOPOST здесь или попробуйте реализовать одну с помощью NLTK чтобы получить представление). Помните, что вы всегда должны рассматривать тегер Brill как последний тегер, который будет использоваться в последовательности систем тегирования (для простого тегирования я обычно использую и обучаю тегер Brill на выходе тегера HMM). Помимо увеличения продолжительности фазы обучения, использование самого тегера Brill обычно приводит к очень большому, обычно перекрывающемуся и иногда «неправильному» набору правил (т. Е. Правилам, которые в «истинных» контекстах тегирования тормозят многие правильные теги). 1005 *

Самой сильной стороной тега Brill является тот факт, что его модель имеет смысл, в частности, когда вы храните правила в удобочитаемом формате, как это обычно делается. Ручная проверка модели статистического тегера является утомительной, подверженной ошибкам и не очень полезной, в то время как набор правил преобразования можно не только понять и настроить вручную, но это могут сделать даже люди, не имеющие предыдущего опыта в НЛП ( на самом деле, я сделал это несколько лет назад, когда некоторые студенты языковой программы оценивали правила, разработанные в бразильском корпусе Portugues. На самом деле, вы даже можете самостоятельно написать набор правил.

Короче говоря, хотя метка Brill полезна в качестве последнего шага в надежной системе каскадных меток, в общем, это не лучшая альтернатива для использования сама по себе (если вы хотите использовать один метщик, я бы посоветовал пойти с HMM один). Мое предложение состоит в том, чтобы обучить и использовать тегер Brill на выходе с тегами другого тегера, предпочтительно комбинированной системы, такой как один для голосования (т. Е. При настройке трех или четырех различных тегеров используйте систему голосования, чтобы выбрать лучший тег для каждого токена. и только затем передайте эти результаты метке Brill, которая, мы надеемся, исправит наиболее распространенные ошибки предыдущей системы).

NQD · Answer 2 · 02 декабря 2015

Некоторые предложения по улучшению тегера Брилла были представлены в статьях «Независимость и приверженность: предположения для быстрого обучения и выполнения POS-тегеров на основе правил» и «Обучение на основе трансформации в быстрой полосе». Кроме того, инструментарий POS и морфологических тегов на основе правил RDRPOSTagger также предоставляет улучшения для тегера Брилла, где основанные на преобразовании правила хранятся в форме двоичного дерева решений. Таким образом, RDRPOSTagger обеспечивает очень быструю производительность обучения и меток с большей точностью, чем у Брилла. Смотрите результаты здесь .

Метка части речи на основе преобразования (маркировка по Брилу)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Метка части речи на основе преобразования (маркировка по Брилу)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы