пропущенные значения логистической регрессии - PullRequest
2 голосов
/ 29 декабря 2010

Могу ли я иметь логистическую регрессию с отсутствующими значениями?

У меня много непрерывных атрибутов и некоторые категориальные, могу ли я установить их как пропущенные пользователем? Может ли это быть полезным?

Ответы [ 2 ]

1 голос
/ 21 января 2011

Большинство процедур регрессии требуют полных данных, но существует множество методов для обработки пропущенных значений.Это тонкая тема, поэтому я не буду претендовать дать полный ответ здесь и рекомендую немного почитать эту тему.Вкратце, хотя:

  1. Никогда не удаляйте наблюдения, чтобы решить эту проблему.
  2. Удаление переменных всегда разрешено, но, очевидно, довольно серьезно с точки зрения бюджета данных.
  3. Заполнение пропущенных значений глобальными константами, такими как среднее значение или медиана не пропущенных значений, должно выполняться экономно (если доля пропусков очень мала), если вообще.
  4. Заполнение пропущенных значенийсо значениями, выбранными на основе других независимых переменных, предпочтительнее числа выше 3.

Чтобы узнать больше об этом предмете, ищите информацию о терминах "вменение", особенно "одно вменение" и "множественное вменение""," отсутствует наугад "и" полностью отсутствует наугад ".

1 голос
/ 29 декабря 2010

Для проведения регрессионного анализа вам нужны все переменные, измеренные для каждого события. Возможно, другой метод работает с отсутствующими атрибутами, но не с регрессией.

Кстати, постарайтесь опубликовать вопрос на https://stats.stackexchange.com/

НТН!

...