Что означает «изолированные символьные вероятности английского языка» - PullRequest
2 голосов
/ 05 марта 2012

В заметке я нашел эту фразу:

Используя отдельные вероятности символов английского языка, вы можете узнать энтропию языка.

Что на самом деле подразумевается под "вероятностями изолированного символа"? Это связано с энтропией источника информации.

1 Ответ

3 голосов
/ 06 марта 2012

Было бы полезно узнать, откуда появилась заметка и каков контекст, но даже без этого я совершенно уверен, что это просто означает, что они используют частоту отдельных символов (например, символов) в качествеоснова для энтропии, а не, например, совместная вероятность (символа последовательности ) или условная вероятность (одного конкретного символа, следующего за другим).

Так что, если у вас есть алфавит X = {a, b, c, ..., z} и вероятность P (a), P (b), ... для каждого символа, чтобы появиться в тексте(например, на основе частоты, найденной в примере данных), вы вычислили бы энтропию, вычислив -P (x) * log (P (x)) для каждого символа x индивидуально и затем взяв суммуиз всех.Тогда, очевидно, вы бы использовали вероятность каждого символа в отдельности , а не вероятность каждого символа в контексте .

Обратите внимание, однако, чтотермин символ в заметке, которую вы нашли, не обязательно относится к символам.Это может относиться к словам или другим единицам текста.Тем не менее, они подчеркивают, что применяют классическую формулу энтропии к вероятностям отдельных событий (символам, словам и т. Д.), не вероятностям сложных или условных событий.

...