Получение имен переменных, связанных с коэффициентами, из GLM () - PullRequest
0 голосов
/ 19 апреля 2020

У меня есть эта модель GLM (), полученная из data.frame () из 100+ переменных. Модель всегда линейна, но используемая формула меняется со временем (т.е. изменяются независимые переменные, составляющие уравнение RHS).

Критерии, которые мы используем для выбора новой формулы, зависят от p-значения коэффициентов, которые мы получаем, используя:

# df = data frame with 100+ columns (variables)

# 1. Create a formula using the columns we want to use:
formula <- #(manually created formula, wish to automate!)

# 2. Build a simple linear model using the variables selected above:
glm_model_object <- glm(formula = formula, data = df)

# 3. Get p-values for everything except intercept:
p_values <- coef(summary(glm_model_object))[-1,4]

# 3. Decide which p-values make the cut:
surviving <- function_that_returns_TRUE_FALSE_vector(p_values)

# 4. Use the "surviving" vector to build formula, go back to 1.

Причина, по которой я не могу просто использовать names(coeff[-1,4] > threshold) для построения динамического элемента c - , названы коэффициенты категориальных переменных отличается от самих переменных , что означает, что я не могу использовать выходные данные вектора names() для создания формулы и использования.

Это потому, что категориальные переменные становятся фиктивными переменными, а "фиктивные" значение "добавляется в конце имени переменной (т. е. если у нас есть переменная с именем" type "и уровни" I "," II "," III ", у нас будет 2 коэффициента с именем" typeII "и" тип III ").

Ребята, вы знаете, как определить, какие столбцы / переменные связаны с каждым коэффициентом? В конечном итоге мне нужно динамически создать формулу динамического c FIXED_Y ~ A + B + T + X, где члены RHS являются выходными значениями p предыдущей регрессии

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...