дерево решений по получению информации - PullRequest
0 голосов
/ 29 декабря 2010

если я получил два дерева решений на одном и том же количестве узлов, что считается лучшим?дерево 1: (F ложно, а T верно)

alt text

, что означает, что первый шире, а второй глубже.

1 Ответ

6 голосов
/ 18 февраля 2011

Я знаю, что этот вопрос довольно старый, но если вы все еще заинтересованы в ответе, обычно более короткое и широкое дерево было бы "лучше".Примите во внимание тот факт, что для достижения внутреннего узла принятия решения "C" потребуется дополнительное решение.

Что вам действительно нужно посмотреть, так это энтропия и усиление на каждом внутреннем узле решения. Энтропия - это количество неопределенности или случайности с определенной переменной.Например, рассмотрим классификатор с двумя классами: ДА и НЕТ (true или false в вашем случае).Если конкретная переменная или атрибут, скажем, x имеет три обучающих примера класса YES и три обучающих примера класса NO (всего шесть), энтропия будет равна 1. Это потому, что существует равноечисло обоих классов для этой переменной и является наиболее "запутанным", которое вы можете получить.Аналогично, если бы x имел все шесть обучающих примеров конкретного класса, скажем, YES, энтропия была бы равна 0, потому что эта конкретная переменная была бы чистой, что делало бы ее листовым узлом в нашем дереве решений.

Энтропия может быть рассчитана следующим образом:

enter image description here

Теперь рассмотрим усиление .Обратите внимание, что на каждом уровне дерева решений мы выбираем атрибут, который представляет лучший коэффициент усиления для этого узла.Выигрыш - это просто ожидаемое уменьшение энтропии, достигаемое путем изучения состояния случайной величины x .Коэффициент усиления также известен как дивергенция Кульбака-Лейблера.Коэффициент усиления можно рассчитать следующим образом:

Kullback-Leibler divergence

...