Я использую библиотеку lifelines
для оценки модели Кокса PH.Для регрессии у меня есть много категорических функций, которые я одноразово кодирую и удаляю по одному столбцу на функцию, чтобы избежать проблемы мультиколлинеарности (фиктивная переменная ловушка).Я не прилагаю код, поскольку пример может быть похож на приведенный в документации здесь .
Запустив cph.check_assumptions(data)
, я получаю информацию о том, что каждая фиктивная переменная нарушает допущения:
Variable 'dummy_a' failed the non-proportional test: p-value is 0.0063.
Advice: with so few unique values (only 2), you can try `strata=['dummy_a']` in the call in `.fit`. See documentation in link [A] and [B] below.
Как следует понимать рекомендации в отношении нескольких фиктивных переменных для одной категориальной функции?Должен ли я добавить их все в страты?
Буду признателен за любые комментарии:)