Необслуживаемая маркировка POS - очень интересная новая тема исследования. Если я правильно понимаю, вы спрашиваете, как оценить точность тегов, а не как отлаживать код. Оценка - известная проблема в неконтролируемой индукции POS. Краткий ответ на ваш вопрос: получите этот аннотированный корпус из NLTK , затем сопоставьте свои состояния с тегами корпуса, сопоставив состояние с тегом, с которым он чаще всего встречается, и найти процент правильных. Эта процедура оценки называется сопоставлением «многие к одному».
Вы должны ознакомиться с литературой, так как она ответит на ваши вопросы и многое другое. Вот несколько мест для начала:
Ранняя статья:
Марк Джонсон. 2007. Почему EM не находит хороших POS-тегов HMM? В материалах Объединенной конференции 2007 года по эмпирическим методам обработки естественного языка и вычислительного изучения естественного языка (EMNLP-CoNLL), стр. 296–305.
Обзорный документ:
Христос Христодулопулос, Шарон Голдуотер и Марк Стидман. 2010. Два десятилетия неконтролируемой POS-индукции: как далеко мы продвинулись? В материалах EMNLP 2010.
Когда вы говорите «без присмотра», вы должны спросить себя, хотите ли вы, например, использовать только необработанный текст или же хотите использовать словарь. На это тоже есть работы.
Кроме того, для этой задачи доступен код.
Еще один вопрос о НЛП: http://metaoptimize.com/qa.
Если у вас есть другие вопросы, не стесняйтесь спрашивать.