Перекрестная энтропия для моделирования языка - PullRequest
3 голосов
/ 10 марта 2011

В настоящее время я работаю над задачей классификации с использованием языкового моделирования. Первая часть проекта включала использование моделей языка n-грамм для классификации документов с использованием c5.0. Заключительная часть проекта требует от меня использования кросс-энтропии для моделирования каждого класса и классификации тестовых случаев по этим моделям.

Есть ли у кого-нибудь опыт использования кросс-энтропии или ссылки на информацию о том, как использовать модель кросс-энтропии для выборки данных? Любая информация вообще была бы отличной! Спасибо

1 Ответ

1 голос
/ 13 марта 2011

Вы можете получить теоретические знания об использовании кросс-энтропии с языковыми моделями в различных учебниках, например, «Обработка речи и языка», автор Jurafsky & Martin, стр. 116-118 во 2-м издании.Что касается конкретного использования, в большинстве инструментов языкового моделирования кросс-энтропия измеряется не напрямую, а как «недоумение», которое является проявлением кросс-энтропии.Недоумение, в свою очередь, может быть использовано для классификации документов.см., например, документацию по команде «evallm» в SLM, инструменты моделирования языка университета Карнеги-Мелон (http://www.speech.cs.cmu.edu/SLM/toolkit_documentation.html)

удачи:)

...