Я знаю, что этот вопрос довольно старый, но если вы все еще заинтересованы в ответе, обычно более короткое и широкое дерево было бы "лучше".Примите во внимание тот факт, что для достижения внутреннего узла принятия решения "C" потребуется дополнительное решение.
Что вам действительно нужно посмотреть, так это энтропия и усиление на каждом внутреннем узле решения. Энтропия - это количество неопределенности или случайности с определенной переменной.Например, рассмотрим классификатор с двумя классами: ДА и НЕТ (true или false в вашем случае).Если конкретная переменная или атрибут, скажем, x имеет три обучающих примера класса YES и три обучающих примера класса NO (всего шесть), энтропия будет равна 1. Это потому, что существует равноечисло обоих классов для этой переменной и является наиболее "запутанным", которое вы можете получить.Аналогично, если бы x имел все шесть обучающих примеров конкретного класса, скажем, YES, энтропия была бы равна 0, потому что эта конкретная переменная была бы чистой, что делало бы ее листовым узлом в нашем дереве решений.
Энтропия может быть рассчитана следующим образом:
Теперь рассмотрим усиление .Обратите внимание, что на каждом уровне дерева решений мы выбираем атрибут, который представляет лучший коэффициент усиления для этого узла.Выигрыш - это просто ожидаемое уменьшение энтропии, достигаемое путем изучения состояния случайной величины x .Коэффициент усиления также известен как дивергенция Кульбака-Лейблера.Коэффициент усиления можно рассчитать следующим образом: