Зачем использовать перекрестную энтропию в дереве решений, а не потерю 0/1 - PullRequest
0 голосов
/ 12 мая 2018

Я знаю, как кросс-энтропия / взаимная информация работает в решении по классификации как функция потерь.Но мне интересно, почему потеря 0/1 не является хорошим выбором.

1 Ответ

0 голосов
/ 13 мая 2018

В контексте общего машинного обучения первичная причина потери 0-1 редко используется в том, что потеря 0-1 не является выпуклой функцией потерь, а также не дифференцируема при 0. Оказывается, что NP-сложныйточно решить проблему с потерей 0-1. Вот источник , в котором обсуждаются некоторые методы прямой оптимизации потерь 0-1.

Кросс-энтропию можно понимать как ослабление потерь 0-1 таким образом, что представляет собой тот же общийидея (приписывая «успех» классификации кандидата на основе степени, в которой он предсказывает правильную метку для этого примера), но которая является выпуклой.

В конкретном контексте деревьев решений, которые вы упоминаете вназвание, есть по крайней мере два важных соображения, связанных с этим.

  • При обучении ванильного дерева решений критерий, используемый для изменения параметров модели (решения разделяется), является некоторой меройчистота классификации, такая как получение информации или примесь Джини , которые представляют собой нечто отличное от стандартной перекрестной энтропии при постановке задачи классификации.На самом деле вы можете использовать здесь 0-1 для критерия расщепления, который также известен как коэффициент ошибочной классификации. Вот некоторые примечания к лекции в формате PDF , где на слайде 19 они показывают хороший график гладких функций для получения информации и примесей Джини, контрастирующих с острой точкой недифференцируемости для скорости ошибочной классификации.

  • В деревьях с градиентным усилением вам снова нужна дифференцируемая функция потерь, которая в основном обсуждается в контексте деревьев регрессии с использованием среднеквадратической ошибки и которая обычно относится либо к потере отклонения, либо к «экспоненциальной» (AdaBoost) потередля классификации, но которые в принципе могут использовать кросс-энтропию каким-то индивидуальным образом.

Для задач, которые радикально выигрывают от выпуклой или хотя бы дифференцируемой функции потерь, таких как обучение на основе нейронной сетиПо классификатору, преимущества использования релаксации, такой как кросс-энтропия, обычно довольно велики, и зачастую нет полной практической ценности в полной оптимизации потерь 0-1.

Для простого дерева решений, где вы можете использовать0-1 проигрыш рассчитатьЕсли вы опоздали с метрикой точности при каждом предложенном разделении, вы не сталкиваетесь с одной и той же проблемой оптимизации NP-hard, скорее вы просто используете потерю 0-1 в качестве критерия разделения и все еще просто просматриваете f -by- dчисло возможных расщеплений f объектов, каждая из которых имеет d наблюдаемых значений.

Я уверен, что вы можете привести некоторые волнообразные аргументы о том, что получение информации или нечистота Джини допускают более тонкие интерпретации относительно информативностиПри определенном разделении функций или, возможно, с большей вероятностью вы можете утверждать, что просто оптимизация точности необработанной классификации при каждом разделении может привести к плохому переоснащению, особенно при использовании жадных методов.

Но, в конце концов, нет веской и быстрой причиныпочему вы не могли использовать потерю 0-1 в качестве критерия расщепления, если у вас была какая-то причина полагать, что это был ценный способ решения конкретной задачи моделирования, над которой вы работаете.

...