У меня есть набор из 500 наиболее часто встречающихся униграмм из совокупности электронных писем. Я использовал это, чтобы классифицировать электронные письма, используя c5.0, основываясь на появлении / отсутствии каждого из слов в тестовом электронном письме.
Теперь мне нужно вычислить сложность терминов в наборе функций и использовать это для классификации электронных писем. Мне было интересно, есть ли у кого-нибудь опыт в языковом моделировании, и я знаю, как мне поступить с расчетом сложности модели, любая помощь будет великолепной!
Я должен добавить, что мне известны инструменты, которые могут сделать это для меня автоматически, например, SRILM / CMU-LMtoolkit, но я бы предпочел сделать это сам с нуля, как часть моего проекта в последний год! Мне просто нужна подсказка о том, как начать ... возможно, ссылка на "Руководство для идиотов по расчету и классификации недоумений с использованием недоумения" !!
Большое спасибо !!