Алгоритм Баума-Уэлча для pos tagger - PullRequest
3 голосов
/ 07 марта 2011

все.Я использую алгоритм Баума-Уэлча для обучения pos-тэггера, он полностью без присмотраЗдесь возникает проблема: когда я получаю результат метки, я получаю только последовательность чисел.Я не могу понять, какой ярлык обозначает VV, NN, DT.Как я могу решить эту проблему?

1 Ответ

4 голосов
/ 10 марта 2011

В общем, нет способа сделать это.Баум-Уэлч найдет классы использования слов, которые имеют схожие распределения, но нет особой причины предполагать, что эти классы будут отображаться каким-либо прямым способом в категории, заданные любой конкретной лингвистической теорией.Поэтому неконтролируемые POS-теги в основном полезны для приложений, в которых вам важны классы эквивалентности слов или фраз, а не конкретные назначаемые теги.

Если вам действительно нужны читаемые человеком ярлыки (например, во время разработки, чтобы оценить, насколько достижимы результаты, даже отдаленно правдоподобные), я бы поставил несколько десятков предложений.Затем вы можете применить свой производный от BW тегер к этому помеченному мини-корпусу, чтобы вызвать сопоставление между номерами классов и надписями POS.

...