Модель Кокса PH в «линиях жизни» - нарушенные предположения для фиктивных переменных - PullRequest
1 голос
/ 05 марта 2019

Я использую библиотеку lifelines для оценки модели Кокса PH.Для регрессии у меня есть много категорических функций, которые я одноразово кодирую и удаляю по одному столбцу на функцию, чтобы избежать проблемы мультиколлинеарности (фиктивная переменная ловушка).Я не прилагаю код, поскольку пример может быть похож на приведенный в документации здесь .

Запустив cph.check_assumptions(data), я получаю информацию о том, что каждая фиктивная переменная нарушает допущения:

Variable 'dummy_a' failed the non-proportional test: p-value is 0.0063.
Advice: with so few unique values (only 2), you can try `strata=['dummy_a']` in the call in `.fit`. See documentation in link [A] and [B] below.

Как следует понимать рекомендации в отношении нескольких фиктивных переменных для одной категориальной функции?Должен ли я добавить их все в страты?

Буду признателен за любые комментарии:)

1 Ответ

1 голос
/ 06 марта 2019

@ abu, ваш вопрос поднимает явный пробел в документации - что делать, если фиктивные переменные нарушают пропорциональный тест. В этом случае я предлагаю , а не дублирование переменной, и добавьте исходный столбец в качестве стратифицированной переменной, например: fit(..., strata=['dummy'])

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...