Изучение дерева решений и нечистота - PullRequest
9 голосов
/ 08 февраля 2011

Существует три способа измерения примесей:

Entropy

Gini Index

Classification Error

Каковы различия и целесообразноварианты использования для каждого метода?

Ответы [ 4 ]

5 голосов
/ 08 февраля 2011

Если значения p_i очень маленькие, то умножение на очень маленькие числа (индекс Джини) может привести к ошибке округления.Из-за этого лучше добавлять логи (энтропия).Ошибка классификации, согласно вашему определению, дает приблизительную оценку, поскольку для вычисления ее значения используется одно наибольшее значение p_i.

3 голосов
/ 15 сентября 2013

Разница между энтропией и другими мерами нечистоты, а на самом деле часто разница между теоретико-информационными подходами в машинном обучении и другими подходами заключается в том, что математически доказано, что энтропия охватывает концепцию «информации».Существует много классификационных теорем (теоремы, которые доказывают, что конкретная функция или математический объект является единственным объектом, удовлетворяющим набору критериев) для энтропийных мер, которые формализуют философские аргументы, оправдывающие их значение как меры «информации».

Контрастностьэто с другими подходами (особенно статистическими методами), которые выбраны не для их философского обоснования, но прежде всего для их эмпирического обоснования - то есть они, кажется, хорошо работают в экспериментах.Причина, по которой они работают хорошо, заключается в том, что они содержат дополнительные допущения, которые могут иметь место во время эксперимента.

В практическом плане это означает, что меры энтропии (A) не могут переопределяться при правильном использовании, поскольку они свободны от каких-либо предположений о данных, (B) с большей вероятностью будут работать лучше, чем случайные, потому что они обобщаютдля любого набора данных, но (C) производительность для определенных наборов данных может быть не такой хорошей, как меры, которые принимают допущения.

При принятии решения о том, какие меры использовать в машинном обучении, оно часто сводится к долгосрочному или краткосрочномувыгоды и ремонтопригодность.Измерения энтропии часто работают в долгосрочной перспективе по (A) и (B), и если что-то идет не так, проще отследить и объяснить, почему (например, ошибка с получением обучающих данных).Другие подходы (C) могут дать кратковременные выгоды, но если они перестанут работать, их будет очень сложно отличить, скажем, ошибка в инфраструктуре с подлинным изменением данных, когда предположения больше не выполняются.

Классическим примером, когда модели внезапно перестали работать, является мировой финансовый кризис.Банкиры получили бонусы за краткосрочную прибыль, поэтому они написали статистические модели, которые хорошо работали бы в краткосрочной перспективе и в значительной степени игнорировали теоретико-информационные модели.

2 голосов
/ 09 февраля 2011

Я нашел это описание примесных мер весьма полезным.Если вы не внедряете с нуля, в большинстве существующих реализаций используется одна предопределенная мера нечистоты.Также обратите внимание, что индекс Джини не является прямой мерой примесей, не в его первоначальной формулировке, и что их гораздо больше, чем то, что вы перечислили выше.

Я не уверен, что понимаю беспокойство о маломчисла и мера примеси Джини ... Я не могу представить, как это будет происходить при разбиении узла.

0 голосов
/ 16 февраля 2011

Я видел различные попытки получить неофициальное руководство по этому вопросу, начиная от «если вы используете одну из обычных метрик, там не будет большой разницы», до гораздо более конкретных рекомендаций. В действительности, единственный способ узнать с уверенностью , какая мера работает лучше всего, - это попробовать всех кандидатов.

В любом случае, вот некоторые перспективы от Salford Systems (поставщик CART):

Действительно ли важны правила расщепления?

...