Оценка регрессии в R - PullRequest
       4

Оценка регрессии в R

7 голосов
/ 21 июня 2011

Существуют ли какие-либо утилиты / пакеты для отображения различных метрик производительности регрессионной модели на некоторых помеченных тестовых данных?Базовые вещи, которые я могу легко написать, например, RMSE, R-квадрат и т. Д., Но, возможно, с некоторыми дополнительными утилитами для визуализации, или отчетами о распределении уверенности / дисперсии предсказания, или о других вещах, о которых я не думал.Об этом обычно сообщается в большинстве учебных утилит (например, поезд кареты), но только по данным обучения (AFAICT).Заранее спасибо.

Ответы [ 2 ]

6 голосов
/ 21 июня 2011

Этот вопрос действительно довольно широкий и должен быть немного сфокусирован, но вот небольшое подмножество функций, написанных для работы с линейными моделями:

x <- rnorm(seq(1,100,1))
y <- rnorm(seq(1,100,1))
model <- lm(x~y)

#general summary
summary(model)
#Visualize some diagnostics
plot(model)
#Coefficient values
coef(model)
#Confidence intervals
confint(model)
#predict values
predict(model)
#predict new values
predict(model, newdata = data.frame(y = 1:10))
#Residuals
resid(model)
#Standardized residuals
rstandard(model)
#Studentized residuals
rstudent(model)
#AIC
AIC(model)
#BIC
BIC(model)
#Cook's distance
cooks.distance(model)
#DFFITS
dffits(model)
#lots of measures related to model fit
influence.measures(model)
5 голосов
/ 21 июня 2011

Доверительные интервалы начальной загрузки для параметров моделей могут быть вычислены с использованием рекомендованного пакета boot . Это очень общий пакет, требующий от вас написать простую функцию-обертку, которая возвращает интересующий параметр, скажем, соответствует модели с некоторыми предоставленными данными и возвращает один из коэффициентов модели, в то время как он заботится об остальном, делая выборку и вычисление интервалов и т. д.

Рассмотрим также пакет caret , который является оболочкой для большого числа функций моделирования, но также предоставляет средства для сравнения производительности модели с использованием ряда метрик с использованием независимого набора тестов или повторной выборки из тренировочные данные ( k -fold, bootstrap). caret хорошо документирован и довольно прост в использовании, хотя, чтобы извлечь из этого максимум, вам необходимо ознакомиться с функцией моделирования, которую вы хотите использовать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...