Question

Следующий вопрос ( этот ) мне не помог.

У меня большой набор данных, и я хочу знать, какие столбцы являются наиболее релевантными для целевой переменной. Я знаю, что в моем случае для каждого класса в целевой переменной разные столбцы оказывают различное влияние.

В этом вопросе предложенный ответ рекомендуется с использованием LDA. Из того, что я понял, это выглядит как обычный алгоритм классификации, так что это не то, что мне нужно

Что я, что-то вроде

In : 
    magic_function("name_of_target_variable_1")
Out :
    ["really_important_column_a", "really_important_column_b" ...]
In : 
    magic_function("name_of_target_variable_2")
Out :
    ["really_important_column_a", "really_important_column_f" ...]

Как я могу получить этот результат? Есть ли способ, в первую очередь?

Patrizio Giovannotti · Answer 1 · 11 октября 2019

Вы можете обучить Классификатор RandomForest для каждой из ваших целевых переменных ( Регрессор RandomForest , если целевая переменная числовая).

Затем вы можете проверить важность каждой функции в прогнозировании целевой переменной.

Найдите наиболее релевантные столбцы для каждого отдельного класса в пандах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найдите наиболее релевантные столбцы для каждого отдельного класса в пандах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы