Рассчитать остаточные значения из набора поездов или тестового набора - PullRequest
0 голосов
/ 12 июня 2019

Я хочу выполнить анализ остатков, и я знаю, что остатки равны наблюдаемым значениям минус прогнозные. Но я не знаю, должен ли я рассчитывать остатки из тренировочного набора или тестового набора?

Должен ли я использовать это:

import statsmodels.api as sm 
# Making predictions
lm = sm.OLS(y_train,X_train).fit()

y_pred = lm.predict(X_train)
resid = y_train - y_pred.to_frame('price')

ИЛИ это:

import statsmodels.api as sm 
# Making predictions
lm = sm.OLS(y_train,X_train).fit()

y_pred = lm.predict(X_test)
resid = y_test- y_pred.to_frame('price')

1 Ответ

2 голосов
/ 12 июня 2019

Остаточная ошибка должна быть рассчитана на основе фактических значений (ожидаемого результата) набора тестов y_test и прогнозных значений с помощью подобранной модели для X_test. Модель устанавливается на тренировочный набор, а затем ее точность проверяется на испытательном комплекте. Вот как я вижу это интуитивно, главная причина, во-первых, формально назвать два набора данных как train (для обучения), а затем для тестирования (test).

В частности, используйте второй случай

resid = y_test- y_pred.to_frame('price')
...