Расчет сложности языковой модели для классификации электронной почты - PullRequest
11 голосов
/ 21 марта 2011

У меня есть набор из 500 наиболее часто встречающихся униграмм из совокупности электронных писем. Я использовал это, чтобы классифицировать электронные письма, используя c5.0, основываясь на появлении / отсутствии каждого из слов в тестовом электронном письме.

Теперь мне нужно вычислить сложность терминов в наборе функций и использовать это для классификации электронных писем. Мне было интересно, есть ли у кого-нибудь опыт в языковом моделировании, и я знаю, как мне поступить с расчетом сложности модели, любая помощь будет великолепной!

Я должен добавить, что мне известны инструменты, которые могут сделать это для меня автоматически, например, SRILM / CMU-LMtoolkit, но я бы предпочел сделать это сам с нуля, как часть моего проекта в последний год! Мне просто нужна подсказка о том, как начать ... возможно, ссылка на "Руководство для идиотов по расчету и классификации недоумений с использованием недоумения" !!

Большое спасибо !!

Ответы [ 3 ]

2 голосов
/ 13 марта 2013

Ссылка на «Современное языковое моделирование» Джошуа Гудмана (репортаж из MS Research) теперь: http://research.microsoft.com/apps/pubs/default.aspx?id=68595

2 голосов
/ 23 марта 2011

Это упражнение курса CMU , кажется, имеет то, что вы хотите.Да, они рекомендуют вам использовать SRILM, но посмотрите раздел «Языковая модель» - он указывает на главу книги, учебник от Microsoft Research и презентацию для этого учебника.

Надеюсь, это поможет!

1 голос
/ 18 марта 2013

Я понимаю, что прошло много времени с тех пор, как вы задали вопрос, но если вы все еще заинтересованы в более широком спектре недоумения (я имею в виду обработку естественного языка, распознавание речи, часть тегов речи и распознавание именованных объектов и т. Д.), Тогда я рекомендую вам пройти этот курс, который в настоящее время работает на Coursera.

Вот URL https://www.coursera.org/course/nlangp

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...