Построение модели прогнозов логистической регрессии с двумя категориальными переменными в аддитивной модели? - PullRequest
0 голосов
/ 05 марта 2019

В своей дипломной работе я изучаю влияние лесопользования на успешность гнездования певчих птиц.Я построил комбинацию моделей, чтобы предсказать влияние краевой плотности (метры / гектар), периода времени, обработки лесов, стадии гнездования и юлианской даты.Одна из моих лучших моделей включает в себя две категориальные переменные (период времени и стадия гнезда) и две непрерывные переменные (плотность ребер и юлианская дата).Как правило, я могу построить фрейм данных с предсказаниями модели и сгенерировать графики для каждой переменной, позволяя варьировать интересующую переменную и удерживая все остальные переменные с помощью их средств.

Вот пример с несколькими непрерывными переменными (sday и sday2 хранятся в своих средних значениях, в то время как EDGELINE100 изменяется):

EDGELINE100 sday    sday2
   0.000000  171 29532.78
   2.210285  171 29532.78
   4.420569  171 29532.78
   6.630854  171 29532.78
   8.841139  171 29532.78
  11.051423  171 29532.78

Отсюда я могу легко построить свои прогнозы.Однако моя проблема в том, что я не уверен, как включить две категориальные переменные в этот фрейм данных прогнозирования модели.Очевидно, что категориальные переменные не могут удерживаться в среднем.

Я успешно выполнил объединение одной категориальной переменной в этот фрейм данных, как показано здесь (стадия гнезда = INC, LAY, NSTL):

EDGELINE100 sday    sday2      INC      LAY     NSTL       
   0.000000  171 29532.78 2.820979 3.225480 3.696423 
   2.210285  171 29532.78 2.806144 3.210645 3.681588 
   4.420569  171 29532.78 2.791309 3.195810 3.666753 
   6.630854  171 29532.78 2.776474 3.180975 3.651918 
   8.841139  171 29532.78 2.761639 3.166140 3.637083 
  11.051423  171 29532.78 2.746803 3.151305 3.622248 

Однако мне не удалось успешно расплавить вторую категориальную переменную.

В идеале я хотел бы иметь возможность добавить еще два столбца после NSTL, которые читают PRE и POST, которые представляют период времени.

Примерно так:

EDGELINE100 sday    sday2      INC      LAY     NSTL     PRE    POST         
   0.000000  171 29532.78 2.820979 3.225480 3.696423                   
   2.210285  171 29532.78 2.806144 3.210645 3.681588                   
   4.420569  171 29532.78 2.791309 3.195810 3.666753                   
   6.630854  171 29532.78 2.776474 3.180975 3.651918                   
   8.841139  171 29532.78 2.761639 3.166140 3.637083                   
  11.051423  171 29532.78 2.746803 3.151305 3.622248                   

Я пытался объединить две переменные, используя функцию dcast в R, но в итоге получается объединение двух категориальных переменных в одну.

Любой совет будет принята с благодарностью.

...