Энтропия и получение информации - PullRequest
2 голосов
/ 29 марта 2011

Простой вопрос, надеюсь.

Если у меня есть такой набор данных:

Classification  attribute-1  attribute-2

Correct         dog          dog 
Correct         dog          dog
Wrong           dog          cat 
Correct         cat          cat
Wrong           cat          dog
Wrong           cat          dog

Тогда каково информационное преимущество атрибута-2 относительно атрибута-1?

Я вычислил энтропию всего набора данных: - (3/6) log2 (3/6) - (3/6) log2 (3/6) = 1

ТогдаЯ застрял!Я думаю, вам нужно рассчитать энтропии атрибута-1 и атрибута-2 тоже?Затем использовать эти три вычисления в расчете прироста информации?

Любая помощь будет отличной,

Спасибо:).

1 Ответ

7 голосов
/ 29 марта 2011

Ну, сначала вы должны рассчитать энтропию для каждого из атрибутов.После этого вы рассчитываете прирост информации.Просто дайте мне минутку, и я покажу, как это должно быть сделано.

для атрибута-1

attr-1=dog:
info([2c,1w])=entropy(2/3,1/3)

attr-1=cat
info([1c,2w])=entropy(1/3,2/3)

Значение для атрибута-1:

info([2c,1w],[1c,2w])=(3/6)*info([2c,1w])+(3/6)*info([1c,2w])

Усиление для атрибута-1:

gain("attr-1")=info[3c,3w]-info([2c,1w],[1c,2w])

И вы должны сделать то же самое для следующего атрибута.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...