Случайный лес - поиск движущих особенностей предсказания - PullRequest
0 голосов
/ 26 февраля 2020

Цель Моя компания внедрила Random Forest, который предсказывает, что они получат оценку по шкале 1-7, используя RandomForestRegressor из sklearn. Мы являемся учебной платформой, и теперь, когда мы можем делать прогнозы, мы также хотим дать рекомендации о том, как мы можем улучшить их прогнозируемый балл. Итак, зная, какая из этих мер была наиболее важной в их прогнозе.

примеры:

Входные функции = {feature1: .0213, feature2: .873, feature3: 178} Прогноз для Model1 = 3,5

Пример обратной связи

Вы набрали 3,5 из-за своего балла Feature1, если вы использовали больше / меньше баллов Feature1, то вы улучшили бы свой балл

Подход У нас есть 140 входных функций, и мы определили 5 основных функций на основе их важности для модели. Из этих пяти лучших мы хотели бы найти, кто был самым большим фактором их низкого балла, и дать отзыв об этом.

Мой подход заключается в том, чтобы пролистать все оценки модели и сохранить 5 лучших. меры и их пороги расщепления, которые происходят во всех деревьях.

Мои вопросы, это выполнимый подход? Наши n_estimators = 1000, поэтому таблица мер и разбиений будет довольно большой. Есть ли у кого-нибудь какие-либо рекомендации относительно какого-либо подхода, кроме этого, или как я мог бы определить наилучший порог для меры из таблицы, построенной путем обхода деревьев?

Другой возможный подход может заключаться в использовании метода model.decision_path ().

Спасибо

...