Как рассчитать недоумение или перекрестную энтропию из распределения вероятностей для определенного предложения? - PullRequest
0 голосов
/ 09 мая 2019

У меня есть список слов, начинающихся с буквы "s" и их счетчик частоты. Из этого я пытаюсь построить языковую модель. У меня нет всего текста, поэтому я не могу сделать условную вероятность, поэтому я вычислил глобальные вероятности каждого слова. Теперь, как я могу рассчитать кросс-энтропию или растерянность этого распределения по тестовым данным? Тестовые данные будут иметь определенное количество слов, начинающихся с буквы S.

Кроме того, если бы я не рассчитал глобальную вероятность, что еще я мог бы сделать?

TLDR: у меня есть список из более чем 4000 слов, начинающихся с буквы s и их частотного распределения, и я должен построить языковую модель для прогнозирования следующего слова в тестовых данных, которые содержат 10-12 слов, начинающихся с буквы s. Каковы наилучшие способы решения этой проблемы?

...