Найдите наиболее релевантные столбцы для каждого отдельного класса в пандах - PullRequest
0 голосов
/ 11 октября 2019

Следующий вопрос ( этот ) мне не помог.

У меня большой набор данных, и я хочу знать, какие столбцы являются наиболее релевантными для целевой переменной. Я знаю, что в моем случае для каждого класса в целевой переменной разные столбцы оказывают различное влияние.

В этом вопросе предложенный ответ рекомендуется с использованием LDA. Из того, что я понял, это выглядит как обычный алгоритм классификации, так что это не то, что мне нужно

Что я, что-то вроде

In : 
    magic_function("name_of_target_variable_1")
Out :
    ["really_important_column_a", "really_important_column_b" ...]
In : 
    magic_function("name_of_target_variable_2")
Out :
    ["really_important_column_a", "really_important_column_f" ...]

Как я могу получить этот результат? Есть ли способ, в первую очередь?

1 Ответ

0 голосов
/ 11 октября 2019

Вы можете обучить Классификатор RandomForest для каждой из ваших целевых переменных ( Регрессор RandomForest , если целевая переменная числовая).

Затем вы можете проверить важность каждой функции в прогнозировании целевой переменной.

...