Можно ли использовать обучающий набор для определения важности переменной с помощью randomForest в R, хотя прогноз тестового набора довольно низок? - PullRequest
0 голосов
/ 12 марта 2019

Я использую randomForest в R, у меня есть тренировочная модель с R ^ 2, равным 0,94, однако возможности прогнозирования для тестирования данных довольно низки. Я хотел бы знать, могу ли я все еще использовать эту модель обучения только для определения того, какая переменная более важна / эффективна для прогнозирования результатов.

Спасибо

1 Ответ

0 голосов
/ 19 марта 2019

Исходя из того, какую небольшую информацию вы предоставляете, на вопрос сложно ответить (подумайте о предоставлении более подробной информации и предыстории). Низкое качество прогнозирования может быть следствием неправильной настройки алгоритма или оно может быть присуще данным, то есть сами ваши предикторы не очень сильно связаны с результатом. В первом случае прогноз мог бы быть лучше при других параметрах, например больше или меньше деревьев, разные значения mtry и т. д. Если это так, то ваши показатели важности столь же предвзяты, как и ваш прогноз (и их следует использовать с осторожностью). Если сами предикторы слабы, это означает, что ваше низкокачественное предсказание так же хорошо, как и получается. В этом случае я бы сказал, что можно использовать показатели важности, но они только говорят вам, кто из ваших общих слабых предикторов более или менее слаб.

...