Как устранить влияние регрессионной переменной / коэффициента при использовании регрессии Random Forest (или других ансамблевых моделей) - PullRequest
0 голосов
/ 11 сентября 2018

Я оцениваю проблему регрессии (ценообразование на продукт), и задача состоит в том, чтобы устранить влияние одного аспекта из модели. Например, если я оцениваю ноутбуки, я бы хотел отделить влияние характеристик оборудования (ОЗУ, размер экрана и т. Д.) От влияния бренда (Apple, HP и т. Д.)

Я более привык к линейным регрессионным моделям вида:

price = a*(hardware specs) + b*(brand specs)

Где я могу определить скорректированную прогнозируемую цену как цену - b * (характеристики бренда).

Однако в моем тесте на прогнозирование RF-регрессия работает намного лучше и не создает коэффициентов, как линейная модель.

Какие у меня есть варианты подобного подхода к удалению аспекта регрессии, который на самом деле является прогностическим?

1 Ответ

0 голосов
/ 11 сентября 2018

Если функции полностью независимы (или вы действительно заботитесь только о двух случаях, один со всеми функциями и один с удаленной данной функцией, как кажется, вопрос задается), удалите функцию, заново обучите свой классификатор и получить разницу в баллах между двумя моделями.

Однако следует иметь в виду, что, если какие-либо оставшиеся функции будут коррелированы с рассматриваемой функцией, вы не получите ее полную объяснительную силу, поскольку модель уже получает часть этой информации. Вам также следует взглянуть на ковариационную матрицу ваших функций, чтобы понять, так ли это.

...