Отладка реализации алгоритма Баума Уэлча (для POS-тегов) - PullRequest
1 голос
/ 05 декабря 2011

Я работаю над проектом, частью которого является разработка неконтролируемого HMM-тренера для POS-тегов, который я сейчас хочу проверить на возможные ошибки.

Я использую алгоритм Баума-Уэлча для обучения модели. Входные данные - это слова последовательности (взятые из корпуса), а выходные - последовательность скрытых состояний из набора состояний (s1, s2, ... sn). Теперь я закончил с кодированием, но не уверен, что в нем нет ошибок.

Может кто-нибудь предложить мне некоторые идеи отладки? Как в том, что я должен проверить в выходах? Как проверить точность моего алгоритма?

1 Ответ

1 голос
/ 05 декабря 2011

Необслуживаемая маркировка POS - очень интересная новая тема исследования. Если я правильно понимаю, вы спрашиваете, как оценить точность тегов, а не как отлаживать код. Оценка - известная проблема в неконтролируемой индукции POS. Краткий ответ на ваш вопрос: получите этот аннотированный корпус из NLTK , затем сопоставьте свои состояния с тегами корпуса, сопоставив состояние с тегом, с которым он чаще всего встречается, и найти процент правильных. Эта процедура оценки называется сопоставлением «многие к одному».

Вы должны ознакомиться с литературой, так как она ответит на ваши вопросы и многое другое. Вот несколько мест для начала:

  • Ранняя статья:

    Марк Джонсон. 2007. Почему EM не находит хороших POS-тегов HMM? В материалах Объединенной конференции 2007 года по эмпирическим методам обработки естественного языка и вычислительного изучения естественного языка (EMNLP-CoNLL), стр. 296–305.

  • Обзорный документ:

    Христос Христодулопулос, Шарон Голдуотер и Марк Стидман. 2010. Два десятилетия неконтролируемой POS-индукции: как далеко мы продвинулись? В материалах EMNLP 2010.

Когда вы говорите «без присмотра», вы должны спросить себя, хотите ли вы, например, использовать только необработанный текст или же хотите использовать словарь. На это тоже есть работы.

Кроме того, для этой задачи доступен код.

Еще один вопрос о НЛП: http://metaoptimize.com/qa.

Если у вас есть другие вопросы, не стесняйтесь спрашивать.

...