Python - многомерная регрессия с дискретным и непрерывным - PullRequest
0 голосов
/ 22 октября 2018

У меня есть набор данных с 53 независимыми переменными (X) и 1 зависимой (Y).

Зависимой переменной является логическое значение (либо 1, либо 0), в то время как независимый набор состоит как из непрерывного, так и издискретные переменные.

Я планировал использовать pandas.DataFrame.corr () для вывода списка наиболее влиятельных переменных для вывода Y.

corr может быть:

  • регрессия Пирсона
  • регрессия Кендалла
  • регрессия Спирмена

Я получаю разные результаты для 3 подходов.

У вас есть предложения, какой из них будет наиболееподходит ли данная форма (дискретный + непрерывный) набора данных?

1 Ответ

0 голосов
/ 23 октября 2018

Корреляция используется только для числовых данных, дискретные / двоичные данные должны обрабатываться по-разному.Посмотрите на коэффициент Phi для двоичного файла.

Что касается коэффициента корреляции (для числовых данных), он зависит от отношения между переменными.Если они линейны, то предпочтительнее Пирсон, в остальном Спирмен (или что-то еще).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...