Я действительно не должен отвечать на это, потому что я не знаю много о сжатии, но я могу сказать:
- Как определяется «бит на символ»?
Вы правы; это обычная энтропия, определенная как -Σp·log(p)
. Обратите внимание, что на самом деле это не частота символов , а частота сообщений . т.е. следующий набор сообщений
{ abcdefghijklmnopqrstuvwxyz }
Выглядит отлично проанализировано буква за буквой, но имеет энтропию 0.
- Как вы можете узнать, что в среднем встречается письмо?
Теоретически невозможно точно знать, если вы не знаете точный процесс, с помощью которого генерируется сообщение. Вы должны использовать некоторые эвристические. Например, взятие большой выборки и подсчет, или поиск шаблонов, которые, как вы знаете, являются признаками избыточности. Например, текст на английском языке и т. Д.