R Случайные леса Значение переменной - PullRequest
46 голосов
/ 10 апреля 2009

Я пытаюсь использовать пакет случайных лесов для классификации в R.

Перечисленные Меры Переменной Значимости:

  • средний показатель важности переменной x для класса 0
  • средний показатель важности переменной x для класса 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

Теперь я знаю, что они "значат", поскольку я знаю их определения. Я хочу знать, как их использовать.

Что я действительно хочу знать, так это то, что эти значения означают только в контексте того, насколько они точны, что является хорошим значением, что является плохим значением, каковы максимумы и минимумы и т. Д.

Если переменная имеет высокий MeanDecreaseAccuracy или MeanDecreaseGini, значит ли это, что это важно или неважно? Также может быть полезна любая информация о необработанных результатах. Я хочу знать все, что нужно знать об этих цифрах, которые имеют отношение к их применению.

Объяснение, использующее слова «ошибка», «суммирование» или «перестановка», было бы менее полезным, чем более простое объяснение, которое не включало бы обсуждения того, как работают случайные леса.

Как если бы я хотел, чтобы кто-то объяснил мне, как пользоваться радио, я бы не ожидал, что объяснение будет включать в себя то, как радио преобразует радиоволны в звук.

Ответы [ 3 ]

27 голосов
/ 08 мая 2009

Объяснение, которое использует слова «ошибка», «суммирование» или «перестановка» будет менее полезным, чем простое объяснение, которое не включает обсуждение того, как работают случайные леса.

Как если бы я хотел, чтобы кто-то объяснил мне, как пользоваться радио, я бы не стал ожидайте, что объяснение будет касаться того, как радио преобразует радиоволны в звук.

Как бы вы объяснили, что «значат» цифры в WKRP 100.5 FM, не вдаваясь в досадные технические детали частот волн? Откровенно говоря, параметры и связанные с этим проблемы производительности со случайными лесами трудно понять, даже если вы понимаете некоторые технические термины.

Вот мой шанс на некоторые ответы:

- средний показатель важности переменной x для класса 0

- средний показатель важности переменной x для класса 1

Упрощение из случайного леса веб-страница , грубая оценка важности показывает, насколько полезнее, чем случайная, конкретная переменная предиктора в успешной классификации данных.

-MeanDecreaseAccuracy

Я думаю, что это только в модуле R , и я считаю, что он измеряет, насколько включение этого предиктора в модель уменьшает ошибку классификации.

-MeanDecreaseGini

Джини определяется как "несправедливость", когда используется при описании распределения доходов общества, или как мера "примеси узла" в древовидной классификации. Низкое значение Gini (то есть более высокое уменьшение в Gini) означает, что конкретная переменная-предиктор играет большую роль в разбиении данных на определенные классы. Трудно описать, не говоря о том факте, что данные в деревьях классификации разделяются в отдельных узлах на основе значений предикторов. Мне не очень понятно, как это приводит к повышению производительности.

22 голосов
/ 22 июля 2009

Для вашего непосредственного интереса: более высокие значения означают, что переменные являются более важными. Это должно быть верно для всех мер, которые вы упоминаете.

Случайные леса дают вам довольно сложные модели, поэтому может быть сложно интерпретировать показатели важности. Если вы хотите легко понять, что делают ваши переменные, не используйте RF. Вместо этого используйте линейные модели или (не ансамблевое) дерево решений.

Вы сказали:

объяснение, которое использует слова «ошибка», «суммирование» или «перестановка» будет менее полезным, чем простой объяснение, которое не связано с какими-либо обсуждение того, как случайные леса работы.

Будет очень сложно объяснить гораздо больше, чем выше, если вы не покопаетесь и не узнаете, что насчет случайных лесов. Я предполагаю, что вы жалуетесь либо на руководство, либо на раздел из руководства Бреймана:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

Чтобы выяснить, насколько важна переменная, они заполняют ее случайным мусором («переставляют»), а затем видят, насколько снижается точность прогнозирования. MeanDecreaseAccuracy и MeanDecreaseGini работают таким образом. Я не уверен, каковы исходные оценки важности.

6 голосов
/ 28 июля 2009

Интерпретируемость довольно сложна со случайными лесами. Хотя РФ является чрезвычайно надежным классификатором, он делает свои прогнозы демократическим путем. Под этим я подразумеваю, что вы строите сотни или тысячи деревьев, взяв случайное подмножество ваших переменных и случайное подмножество ваших данных и построив дерево. Затем сделайте прогноз для всех невыбранных данных и сохраните прогноз. Он надежен, потому что хорошо справляется с капризами вашего набора данных (то есть он сглаживает случайно высокие / низкие значения, случайные графики / выборки, измеряет одно и то же 4 разными способами и т. Д.). Однако, если у вас есть некоторые сильно коррелированные переменные, обе могут показаться важными, поскольку они не всегда включены в каждую модель.

Один из возможных подходов со случайными лесами может состоять в том, чтобы помочь свести на нет ваши предикторы, а затем переключиться на обычную CART или попробовать пакет PARTY для моделей дерева на основе логического вывода. Однако тогда вы должны быть осторожны с проблемами интеллектуального анализа данных и делать выводы о параметрах.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...