Question

У меня есть набор данных с 53 независимыми переменными (X) и 1 зависимой (Y).

Зависимой переменной является логическое значение (либо 1, либо 0), в то время как независимый набор состоит как из непрерывного, так и издискретные переменные.

Я планировал использовать pandas.DataFrame.corr () для вывода списка наиболее влиятельных переменных для вывода Y.

corr может быть:

регрессия Пирсона
регрессия Кендалла
регрессия Спирмена

Я получаю разные результаты для 3 подходов.

У вас есть предложения, какой из них будет наиболееподходит ли данная форма (дискретный + непрерывный) набора данных?

user2974951 · Answer 1 · 23 октября 2018

Корреляция используется только для числовых данных, дискретные / двоичные данные должны обрабатываться по-разному.Посмотрите на коэффициент Phi для двоичного файла.

Что касается коэффициента корреляции (для числовых данных), он зависит от отношения между переменными.Если они линейны, то предпочтительнее Пирсон, в остальном Спирмен (или что-то еще).

Python - многомерная регрессия с дискретным и непрерывным

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python - многомерная регрессия с дискретным и непрерывным

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов