тренируй логистику c регрессии, пока не будет переменных кросс-знака - PullRequest
0 голосов
/ 14 января 2020

Это проблема классификации. Допустим, у меня есть фрейм данных с [v1, v2, v3, v4, v5] в качестве независимых переменных и [d] в качестве зависимой переменной.

Допустим, есть некоторые переменные с положительными, а некоторые с отрицательными корреляции с целевой переменной. pos_corr = [v1, v3] neg_corr = [v2, v4, v5]

И я натренировал мою модель регрессии logisti c со всем набором данных, и знаки переменных коэффициентов пришли, как показано ниже. pos_coef = [v1, v4] neg_coef = [v2, v3, v5]

Здесь у меня есть "v1", "v2" и "v5" как согласованные знаковые переменные, так как они имеют общие знаки (либо положительные корреляции и коэффициенты или отрицательные корреляции и коэффициенты) корреляций и модельных коэффициентов. А оставшиеся переменные "v3" и "v4" являются непоследовательными, потому что они имеют положительную корреляцию и отрицательные значения коэффициентов и наоборот.

Теперь я хочу обучить новую модель, используя только переменные общего знака, то есть "v1" , "v2" и "v5". И снова я хочу проверить их корреляцию и знаки коэффициентов и исключить эти переменные с помощью перекрестных знаков.

Если кто-нибудь может помочь мне с кодом python для этого требования, это было бы очень полезно.

Заранее спасибо.

...