Обучение скрытых марковских моделей без помеченных данных корпуса - PullRequest
4 голосов
/ 16 декабря 2009

Для курса лингвистики мы реализовали тегирование части речи (POS), используя скрытую марковскую модель, где скрытые переменные были частями речи. Мы обучили систему некоторым помеченным данным, а затем протестировали ее и сравнили наши результаты с золотыми данными.

Было бы возможно обучить HMM без маркированного тренировочного набора?

Ответы [ 2 ]

6 голосов
/ 18 декабря 2009

Теоретически вы можете сделать это. В этом случае вы бы использовали алгоритм Баума-Уэлча. Это очень хорошо описано в Учебное пособие Рабинера по HMM .

Однако, применив HMM к части речи, ошибка, которую вы получите со стандартной формой, не будет столь удовлетворительной. Это форма максимизации ожидания, которая сходится только к локальным максимумам. Подходы, основанные на правилах, побеждают руки HMM, iirc.

Я полагаю, что инструментарий естественного языка NLTK для python имеет HMM-реализацию именно для этой цели.

1 голос
/ 16 декабря 2009

НЛП была пару лет назад, но я считаю, что без пометки HMM мог бы помочь определить вероятности выброса символа / перехода состояния для n-грамм (то есть каковы шансы появления «мира» после «привет»), но части речи. Для того, чтобы понять, как POS взаимосвязаны, нужен помеченный корпус.

Если я далеко от этого, дайте мне знать в комментариях!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...