Question

Предположим, у меня есть переменная ответа и данные, содержащие три ковариаты (в качестве примера игрушки):

y = c(1,4,6)
d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2))

Я хочу подогнать линейную регрессию к данным:

fit = lm(y ~ d$x1 + d$x2 + d$y2)

Есть ли способ написать формулу, чтобы мне не приходилось выписывать каждый отдельный ковариат?Например, что-то вроде

fit = lm(y ~ d)

(я хочу, чтобы каждая переменная во фрейме данных была ковариантной). Я спрашиваю, потому что у меня на самом деле 50 переменных в фрейме данных, поэтому я хочу избежать записиout x1 + x2 + x3 + etc.

Gavin Simpson · Answer 1 · 09 марта 2011

Существует специальный идентификатор, который можно использовать в формуле для обозначения всех переменных, это идентификатор ..

y <- c(1,4,6)
d <- data.frame(y = y, x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2))
mod <- lm(y ~ ., data = d)

Вы также можете делать такие вещи, чтобы использовать все переменные, кроме одной:

mod <- lm(y ~ . - x3, data = d)

Технически, . означает все переменные , а не , уже упомянутые в формуле . Например

lm(y ~ x1 * x2 + ., data = d)

, где . будет ссылаться только на x3, поскольку x1 и x2 уже находятся в формуле.

juba · Answer 2 · 10 марта 2011

Немного другой подход - создать формулу из строки.На странице справки formula вы найдете следующий пример:

## Create a formula for a model with a large number of variables:
xnam <- paste("x", 1:25, sep="")
fmla <- as.formula(paste("y ~ ", paste(xnam, collapse= "+")))

Тогда, если вы посмотрите на сгенерированную формулу, вы получите:

R> fmla
y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10 + x11 + 
    x12 + x13 + x14 + x15 + x16 + x17 + x18 + x19 + x20 + x21 + 
    x22 + x23 + x24 + x25

Bernd Elkemann · Answer 3 · 09 марта 2011

Да, конечно, просто добавьте ответ y в качестве первого столбца в кадре данных и вызовите lm() на нем:

d2<-data.frame(y,d)
> d2
  y x1 x2 x3
1 1  4  3  4
2 4 -1  9 -4
3 6  3  8 -2
> lm(d2)

Call:
lm(formula = d2)

Coefficients:
(Intercept)           x1           x2           x3  
    -5.6316       0.7895       1.1579           NA

Кроме того, моя информация о R указывает на то, что присвоение с <- рекомендуется более =.

lmo · Answer 4 · 02 апреля 2017

Расширение метода Джубы заключается в использовании reformulate, функции, которая явно предназначена для такой задачи.

## Create a formula for a model with a large number of variables:
xnam <- paste("x", 1:25, sep="")

reformulate(xnam, "y")
y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10 + x11 + 
    x12 + x13 + x14 + x15 + x16 + x17 + x18 + x19 + x20 + x21 + 
    x22 + x23 + x24 + x25

Для примера в OP, самое простое решение здесь будет

# add y variable to data.frame d
d <- cbind(y, d)
reformulate(names(d)[-1], names(d[1]))
y ~ x1 + x2 + x3

или

mod <- lm(reformulate(names(d)[-1], names(d[1])), data=d)

Обратите внимание, что добавление зависимой переменной в data.frame в d <- cbind(y, d) является предпочтительным не только потому, что оно позволяет использовать reformulate, но и потому, что оно позволяет в будущем использовать объект lm в таких функциях, как predict.

Christian Torrez · Answer 5 · 15 ноября 2017

Я строю это решение, reformulate не заботится, если имена переменных имеют пробелы.

add_backticks = function(x) {
    paste0("`", x, "`")
}

x_lm_formula = function(x) {
    paste(add_backticks(x), collapse = " + ")
}

build_lm_formula = function(x, y){
    if (length(y)>1){
        stop("y needs to be just one variable")
    }
    as.formula(        
        paste0("`",y,"`", " ~ ", x_lm_formula(x))
    )
}

# Example
df <- data.frame(
    y = c(1,4,6), 
    x1 = c(4,-1,3), 
    x2 = c(3,9,8), 
    x3 = c(4,-4,-2)
    )

# Model Specification
columns = colnames(df)
y_cols = columns[1]
x_cols = columns[2:length(columns)]
formula = build_lm_formula(x_cols, y_cols)
formula
# output
# "`y` ~ `x1` + `x2` + `x3`"

# Run Model
lm(formula = formula, data = df)
# output
Call:
    lm(formula = formula, data = df)

Coefficients:
    (Intercept)           x1           x2           x3  
        -5.6316       0.7895       1.1579           NA

`` `

amonk · Answer 6 · 03 мая 2017

Вы можете проверить пакет leaps и, в частности, функцию regsubsets() функции для выбора модели.Как указано в документации:

Выбор модели с помощью исчерпывающего поиска, пошагового перемещения вперед или назад или последовательной замены

Как кратко написать формулу со многими переменными из фрейма данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как кратко написать формулу со многими переменными из фрейма данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы