Question

У меня есть набор из 500 наиболее часто встречающихся униграмм из совокупности электронных писем. Я использовал это, чтобы классифицировать электронные письма, используя c5.0, основываясь на появлении / отсутствии каждого из слов в тестовом электронном письме.

Теперь мне нужно вычислить сложность терминов в наборе функций и использовать это для классификации электронных писем. Мне было интересно, есть ли у кого-нибудь опыт в языковом моделировании, и я знаю, как мне поступить с расчетом сложности модели, любая помощь будет великолепной!

Я должен добавить, что мне известны инструменты, которые могут сделать это для меня автоматически, например, SRILM / CMU-LMtoolkit, но я бы предпочел сделать это сам с нуля, как часть моего проекта в последний год! Мне просто нужна подсказка о том, как начать ... возможно, ссылка на "Руководство для идиотов по расчету и классификации недоумений с использованием недоумения" !!

Большое спасибо !!

Cpt. Senkfuss · Answer 1 · 13 марта 2013

Ссылка на «Современное языковое моделирование» Джошуа Гудмана (репортаж из MS Research) теперь: http://research.microsoft.com/apps/pubs/default.aspx?id=68595

michel-slm · Answer 2 · 23 марта 2011

Это упражнение курса CMU , кажется, имеет то, что вы хотите.Да, они рекомендуют вам использовать SRILM, но посмотрите раздел «Языковая модель» - он указывает на главу книги, учебник от Microsoft Research и презентацию для этого учебника.

Надеюсь, это поможет!

T. Rex · Answer 3 · 18 марта 2013

Я понимаю, что прошло много времени с тех пор, как вы задали вопрос, но если вы все еще заинтересованы в более широком спектре недоумения (я имею в виду обработку естественного языка, распознавание речи, часть тегов речи и распознавание именованных объектов и т. Д.), Тогда я рекомендую вам пройти этот курс, который в настоящее время работает на Coursera.

Вот URL https://www.coursera.org/course/nlangp

Расчет сложности языковой модели для классификации электронной почты

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Расчет сложности языковой модели для классификации электронной почты

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов