У меня есть эта модель GLM (), полученная из data.frame () из 100+ переменных. Модель всегда линейна, но используемая формула меняется со временем (т.е. изменяются независимые переменные, составляющие уравнение RHS).
Критерии, которые мы используем для выбора новой формулы, зависят от p-значения коэффициентов, которые мы получаем, используя:
# df = data frame with 100+ columns (variables)
# 1. Create a formula using the columns we want to use:
formula <- #(manually created formula, wish to automate!)
# 2. Build a simple linear model using the variables selected above:
glm_model_object <- glm(formula = formula, data = df)
# 3. Get p-values for everything except intercept:
p_values <- coef(summary(glm_model_object))[-1,4]
# 3. Decide which p-values make the cut:
surviving <- function_that_returns_TRUE_FALSE_vector(p_values)
# 4. Use the "surviving" vector to build formula, go back to 1.
Причина, по которой я не могу просто использовать names(coeff[-1,4] > threshold)
для построения динамического элемента c - , названы коэффициенты категориальных переменных отличается от самих переменных , что означает, что я не могу использовать выходные данные вектора names()
для создания формулы и использования.
Это потому, что категориальные переменные становятся фиктивными переменными, а "фиктивные" значение "добавляется в конце имени переменной (т. е. если у нас есть переменная с именем" type "и уровни" I "," II "," III ", у нас будет 2 коэффициента с именем" typeII "и" тип III ").
Ребята, вы знаете, как определить, какие столбцы / переменные связаны с каждым коэффициентом? В конечном итоге мне нужно динамически создать формулу динамического c FIXED_Y ~ A + B + T + X
, где члены RHS являются выходными значениями p предыдущей регрессии
Спасибо!