Взвешенные деревья решений с использованием энтропии - PullRequest
8 голосов
/ 15 июля 2009

Я строю двоичное дерево классификации, используя взаимное получение информации в качестве функции разделения. Но так как данные обучения смещены в сторону нескольких классов, желательно взвешивать каждый пример обучения по частоте обратного класса.

Как мне взвесить тренировочные данные? При расчете вероятностей для оценки энтропии, беру ли я средневзвешенные значения?

РЕДАКТИРОВАТЬ: Я хотел бы выражение для энтропии с весами.

Ответы [ 2 ]

4 голосов
/ 15 июля 2009

В статье про Википедию, которую вы цитировали, идет взвешивание. Это говорит:

Взвешенные варианты
В традиционной формулировке взаимной информации,

alt text

каждое событие или объект, указанный в (x, y), взвешивается с соответствующей вероятностью p (x, y). Это предполагает, что все объекты или события эквивалентны, кроме их вероятности возникновения. Однако в некоторых приложениях это может быть тот случай, когда некоторые объекты или события более значимы, чем другие, или что определенные шаблоны ассоциаций более семантически важны, чем другие.

Например, детерминированное отображение {(1,1), (2,2), (3,3)} может рассматриваться как более сильное (по некоторым стандартам), чем детерминированное отображение {(1,3), ( 2,1), (3,2)}, хотя эти отношения дадут одну и ту же взаимную информацию. Это связано с тем, что взаимная информация вообще не чувствительна к какому-либо внутреннему упорядочению значений переменных (Cronbach 1954, Coombs & Dawes 1970, Lockhead 1970) и, следовательно, вообще не чувствительна к форме реляционного сопоставления между ассоциированными переменными. , Если желательно, чтобы прежнее отношение - демонстрирующее согласие по всем значениям переменной - было оценено как более сильное, чем более позднее отношение, то можно использовать следующую взвешенную взаимную информацию (Guiasu 1977)

alt text

, который помещает вес w (x, y) в вероятность одновременного вхождения каждого значения переменной, p (x, y). Это позволяет определенным вероятностям иметь большее или меньшее значение, чем другие, что позволяет количественно оценить соответствующие целостные или prägnanz факторы. В приведенном выше примере, использование больших относительных весов для w (1,1), w (2,2) и w (3,3) будет иметь эффект оценки большей информативности для отношения {(1,1), ( 2,2), (3,3)}, чем для соотношения {(1,3), (2,1), (3,2)}, что может быть желательно в некоторых случаях распознавания образов, и тому подобное.

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

2 голосов
/ 18 июля 2009

Взвешенная государством стоимость энтропии как мера инвестиционного риска.
http://www56.homepage.villanova.edu/david.nawrocki/State%20Weighted%20Entropy%20Nawrocki%20Harding.pdf

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...