Самая большая слабость метки Brill - это время, необходимое для фазы обучения (посмотрите на отметки времени для ACOPOST здесь или попробуйте реализовать одну с помощью NLTK чтобы получить представление). Помните, что вы всегда должны рассматривать тегер Brill как последний тегер, который будет использоваться в последовательности систем тегирования (для простого тегирования я обычно использую и обучаю тегер Brill на выходе тегера HMM). Помимо увеличения продолжительности фазы обучения, использование самого тегера Brill обычно приводит к очень большому, обычно перекрывающемуся и иногда «неправильному» набору правил (т. Е. Правилам, которые в «истинных» контекстах тегирования тормозят многие правильные теги). 1005 *
Самой сильной стороной тега Brill является тот факт, что его модель имеет смысл, в частности, когда вы храните правила в удобочитаемом формате, как это обычно делается. Ручная проверка модели статистического тегера является утомительной, подверженной ошибкам и не очень полезной, в то время как набор правил преобразования можно не только понять и настроить вручную, но это могут сделать даже люди, не имеющие предыдущего опыта в НЛП ( на самом деле, я сделал это несколько лет назад, когда некоторые студенты языковой программы оценивали правила, разработанные в бразильском корпусе Portugues. На самом деле, вы даже можете самостоятельно написать набор правил.
Короче говоря, хотя метка Brill полезна в качестве последнего шага в надежной системе каскадных меток, в общем, это не лучшая альтернатива для использования сама по себе (если вы хотите использовать один метщик, я бы посоветовал пойти с HMM один). Мое предложение состоит в том, чтобы обучить и использовать тегер Brill на выходе с тегами другого тегера, предпочтительно комбинированной системы, такой как один для голосования (т. Е. При настройке трех или четырех различных тегеров используйте систему голосования, чтобы выбрать лучший тег для каждого токена. и только затем передайте эти результаты метке Brill, которая, мы надеемся, исправит наиболее распространенные ошибки предыдущей системы).