Как рассчитать информационную энтропию в двухшаговом решении? - PullRequest
1 голос
/ 24 февраля 2010

У меня есть вопрос, который, как мне кажется, связан с «условной энтропией» в области теории информации. Я пытаюсь обернуть голову вокруг этого, но мог бы помочь. Рассмотрим пример, в котором у нас есть четыре дома. В первом доме восемь человек, во втором - четыре человека, в третьем - два человека, в четвертом - два человека. Итак, четыре дома и шестнадцать человек. Если я просто выбираю одного из этих людей наугад, то этот выбор - выбор из шестнадцати человек, что дает информационную энтропию в 4 бита для этого выбора.

Но теперь рассмотрим двухэтапный выбор, в котором сначала я выбираю один дом случайным образом, а затем выбираю одного из людей в выбранном доме. Таким образом, первый шаг - выбор одного дома из четырех доступных домов - генерирует две части информационной энтропии. Но теперь, в 25% случаев, когда я выбираю первый дом, второй шаг добавляет еще три бита при выборе одного человека из восьми человек в первом доме. В других 25% случаев мне нужно всего лишь два бита, чтобы выбрать одного человека из четырех, которые живут во втором доме. И, наконец, в половине случаев мне нужно всего лишь один бит, чтобы выбрать одного человека из пары, которая живет в третьем или четвертом доме.

Каким-то образом мне кажется, что средневзвешенное число битов для двухэтапного подхода должно генерировать те же четыре бита, которые требуются для одношагового метода. Но я не могу сложить цифры, так что ясно, что математика - это больше, чем я думаю. Я ожидал, что вы просто сможете сложить вероятности следующим образом:

(picking a house) + (picking a person in that house) ==

log(4) + [(1/4)*log(8) + (1/4)*log(4) + (1/4)*log(2) + (1/4)*log(2)]

Но это дает результат в 3,75 бита, а не 4 бита, которые я ожидаю. Вот немного Python, который я использовал для оценки этого.

from math import log
def log2(x):
    return log(x,2)
x = log2(4) + ((1.0/4)*log2(8) + (1.0/4)*log2(4) + (1.0/4)*log2(2) + (1.0/4)*log2(2))
print x

Итак, чего-то не хватает в моих фигурах. Кто-нибудь может указать мне правильное направление?

1 Ответ

1 голос
/ 24 февраля 2010

Если вы выбираете дом случайным образом (с одинаковой вероятностью, для краткости UP), затем выбираете жильца случайным образом (UP), вы не выбираете один из 16 UP - у вас есть несколько искаженное распределение, что неудивительно приводит к снижению энтропии (UP максимизирует энтропию). Восемь человек отбираются с вероятностью 1/32 каждый, четыре выбираются с вероятностью 1/16 каждый, а остальные четыре с вероятностью 1/8 каждый. Этот дистрибутив имеет энтропию 3,75 бита, так же, как вы рассчитывали с помощью другого подхода.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...