Существуют ли какие-либо методы для определения значения переменной, которое оказывает существенное влияние на реакцию? - PullRequest
1 голос
/ 20 января 2020

У меня есть набор данных, который имеет 5 переменных и 1 ответ. Переменные являются дискретными. Я хочу найти ключевую переменную и ее значение, которое приводит к значительному увеличению или уменьшению отклика.

1 Ответ

0 голосов
/ 20 января 2020

Вам нужно будет выполнить некоторые статистические тесты, чтобы определить, какие переменные являются наиболее значимыми.

Если вы знакомы с python, вы можете использовать SelectKBest из scikit-learn. , Это даст вам оценку, чем выше оценка, тем сильнее связь между функцией и выходом.

Кроме того, вы можете обучить объяснимую модель ML, достаточно сильную, чтобы сходиться, и найти шаблон в данных. Исходя из этого, вы можете вычислить важность функции.

Например, вы можете использовать DecisionTreeClasifier из scikit-learn. У него есть классовая функция solution_path , которая будет отображать путь принятия решения, выбранный деревом, у решения_path есть свойство с именем feature_importances_ , которое использует коэффициент Джини для вычисления важности функции.

И последнее, но не менее важное: вы можете использовать методы сокращения функций, такие как PCA , он используется для поиска отклонения между переменными из PCA Вы будете вычислять новые Основные Компоненты, которые связаны с функциями, из наиболее объяснительных из которых вы можете найти важность функций. Проверьте ответ переполнения стека , который объясняет все, что вам нужно знать для этого.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...