Как получить окончательное уравнение, которое алгоритм Random Forest использует для ваших независимых переменных, чтобы предсказать вашу зависимую переменную? - PullRequest
0 голосов
/ 16 января 2019

Я работаю над оптимизацией производственного набора данных, который состоит из огромного количества контролируемых параметров. Цель состоит в том, чтобы добиться наилучших настроек этих параметров.

Во время исследования я ознакомился с несколькими алгоритмами прогнозирования и, если я скажу, использую Случайный Лес, чтобы предсказать мою зависимую переменную, чтобы понять, насколько важна каждая независимая переменная, есть ли способ извлечь окончательное уравнение / отношение, используемое алгоритмом?

Я не уверен, что мой вопрос был достаточно ясен, пожалуйста, дайте мне знать, есть ли что-нибудь еще, что я могу добавить здесь.

Ответы [ 2 ]

0 голосов
/ 16 января 2019

Существует ряд методов для оценки важности функций на основе обученной модели. Для случайного леса наиболее известными методами являются MDI (среднее уменьшение примеси) и MDA (среднее снижение точности). Многие популярные библиотеки ML поддерживают оценку важности функций из коробки для Random Forest.

0 голосов
/ 16 января 2019

Нет общего способа получить интерпретируемое уравнение из случайного леса, объясняющего, как ваши ковариаты влияют на зависимую переменную. Для этого вы можете использовать другую модель, более подходящую, например, линейную регрессию (возможно, с функциями ядра) или дерево решений. Обратите внимание, что вы можете использовать одну модель для прогнозирования и одну модель для описательного анализа - нет никакой внутренней причины придерживаться одной модели.

используйте Случайный Лес, чтобы предсказать мою зависимую переменную, чтобы понять, насколько важна каждая независимая переменная

Понимание того, насколько важна каждая зависимая переменная, не обязательно означает, что вам нужен вопрос в заголовке вашего вопроса, а именно получение фактических отношений. В большинстве пакетов случайных лесов есть метод количественной оценки степени влияния каждого ковариата на модель в наборе поездов.

...