Влияет ли утверждение веса в proc logistic на независимую переменную или зависимую переменную? - PullRequest
0 голосов
/ 16 мая 2019

Я управляю проектом, в котором реализована двухэтапная процедура для прогнозирования того, будет ли человек возвращать или не возвращать свой кредит.Этот проект предназначен для того, чтобы научить нас розничному кредитному риску и повседневному индивидуальному заимствованию, например, кредитным картам.

Два шага следующие:

  1. Выполнить многомерную логистическую регрессию на«разрешенные» дела.То есть эти наблюдения имеют четкий результат: их зависимая переменная равна 1 для «Cure» и 0 для «ликвидированного». Для этого раздела я использую коэффициенты

    • Ежедневное изменение текущего счета / объем
    • Общая сумма долгосрочной задолженности
    • Использование кредита
    • Время с момента последнего платежа
    • Время с поставщиком кредитной карты
  2. Теперь, когда у меня есть модель, которая в прошлом была полевой информацией о том, удалось ли отдельным лицам погасить свой долг или объявили его несостоятельным.Я должен применить эту модель к лицам, которые в настоящее время не могут погасить свой кредит.

    Предпосылка этого состоит в том, чтобы дополнить закрытые дела открытыми делами.Поэтому к открытым случаям будет прикреплена вероятность «возврата» или «лечения».

Теперь моя входная таблица выглядит следующим образом

Resolution_status dependent_var weight X1 X2 X3 X4 X5
Resolved          1             1      30 1500 3 3
Resolved          0             1      15 750  1 1
----------------------------------------------------------------
Unresolved        1             0.6    5  500  6 6
Unresolved        0             0.4    5  500  6 6 

Я выделил Неразрешенные случаи, чтобы определить, что каждое наблюдение соответствует этим правилам. - Каждое неразрешенное наблюдение дублируется. - Первому дается 1 для лечения и вес, равный вероятности излечения, оцененной моделью на шаге 1

.

Каково влияние использования выражения веса?Должен ли я использовать взбитую нулевую бета-регрессию или модель дробного логита вместо этого?

Я попытался запустить приведенный выше пример с набором данных SAShelp.baseball, чтобы позволить вам запустить его

      /*Split the dataset into resolved and unresolved*/
      DATA baseball_resolved
               baseball_unresolved
               ;
               SET sashelp.baseball
                         (KEEP = cr: logsalary);

               IF NOT MISSING(logsalary) THEN DO;
                         IF logsalary > 6.5 THEN flag = 1;
                         ELSE flag = 0;
               END;

               IF NOT MISSING(logsalary) THEN OUTPUT baseball_resolved;
               ELSE OUTPUT baseball_unresolved;

               DROP logSalary;
      RUN;

      /*Predict the model on the resolved cases*/
      PROC LOGISTIC DESCENDING
               OUTMODEL = in_model_baseball
               DATA = baseball_resolved
               PLOTS(ONLY) = NONE;
               MODEL flag (Event = '1') = cr:
               /
               SELECTION = NONE
               LINK = LOGIT
               ;
      RUN;
      QUIT;

      /*Apply the model to the unresolved cases*/
      PROC LOGISTIC
               INMODEL = in_model_baseball;
               SCORE DATA = baseball_unresolved
               OUT = unresolved_score
                         (KEEP = cr: p_1 p_0);
      RUN;

      /*Now output duplicate rows, with a weight attached*/
      DATA unresolved_baseball_p_cure;
               SET unresolved_score
                         (RENAME = (p_1 = weight));
               flag = 1;
               ;
               DROP p_0;
      RUN;

      DATA unresolved_baseball_p_non_cure;
               SET unresolved_score
                         (RENAME = (p_0 = weight));
               flag = 1;
               ;
               DROP p_1;
      RUN;

      /*Attach a weight of 1 to all resolved cases*/
      DATA baseball_resolved_weight;
               SET baseball_resolved;
               WEIGHT = 1;
      RUN;

      /*Merge the tables*/
      DATA full_table
               (rename = (weight = weight_var));
               SET
                         baseball_resolved_weight
                         unresolved_baseball_p_cure
                         unresolved_baseball_p_non_cure;
      RUN;

      /*Run a logistic regression with weight*/
      proc logistic
               data = full_table;
               model flag (EVENT = '1') = cr:;
               weight weight_var;
      RUN;

Работает ли оператор веса в контексте, который я пытаюсь?Моя цель по сути состоит в том, чтобы провести логистическую регрессию на 1 и 0, но учесть, что «нерешенные» случаи являются дубликатами с прикрепленной «вероятностью излечения»

1 Ответ

1 голос
/ 17 июня 2019

Оператор веса применяет вес ко всей строке. На обоих независимых и зависимых

Например, если у вас есть только эти четыре строки в наборе данных,

Resolution_status dependent_var weight X1 X2 X3 X4 X5
Resolved          1             1      30 1500 3 3
Resolved          0             1      15 750  1 1
Unresolved        1             0.6    5  500  6 6
Unresolved        0             0.4    5  500  6 6 

Способ посмотреть на это так: хотя на самом деле у вас есть 4 строки, для всех вычислительных целей предполагается, что этот набор данных имеет только 3 (Sigma (вес) = 1 + 1 + 0,6 + 0,4 = 3) строки.

Таким образом, когда вы запускаете логистическую процедуру с переменной веса в качестве 'веса' в вышеуказанном наборе данных 4 наблюдений, вы технически моделируете логистическую регрессию для:

3 наблюдения, при этом число наблюдений с зависимостью (var = 1) составляет 1,6; и число наблюдений с зависимостью_var = 0 составляет 1,4;

Весовые коэффициенты также подразумеваются для независимых переменных (X1 - X5). Например, если вы хотите вычислить среднее значение X1, оно больше не является (30 + 15 + 5 + 5) / 4; вместо этого оно составляет (30 * 1 + 15 * 1 + 5 * 0,6 + 5 * 0,4) / 3

Это вес с технической точки зрения. Однако, комментируя вашу предпосылку и вопрос об эффективности такого подхода, я бы воздержался от комментариев здесь, так как это зависит от дальнейшего понимания вашего случая и вашего уровня комфорта с предположениями, сделанными с точки зрения кредитного риска ...

надеюсь, это поможет ...

...