Я тренирую свои навыки работы с данными на python, которые я выучил в R. Хотя у меня есть сомнения по поводу простой линейной регрессии
Climate_change Data: [ссылка здесь]
Python Script
import os
import pandas as pd
import statsmodels.api as sm
train = df[df.Year>=2006]
X = train[['MEI', 'CO2', 'CH4', 'N2O', 'CFC.11', 'CFC.12', 'TSI', 'Aerosols']]
y = train[['Temp']]
model = sm.OLS(y, X).fit()
predictions = model.predict(X)
model.summary()
Python Result
Деп.Переменная: Temp R-квадрат: 0,972
Модель: OLS Adj.R-квадрат: 0,964
Метод: наименьшие квадраты F-статистика: 123,1
Дата: понедельник, 01 октября 2018 г. Проба (F-статистика): 9,54e-20
Время: 14:52:53 Вероятность записи: 46,898
Нет.Наблюдения: 36 AIC: -77,80
Df Остатки: 28 BIC: -65,13
Df Модель: 8
Тип ковариации: не устойчивый
MEI 0,0361
CO2 0,0046
CH4 -0,0023
N2O -0,011
CFC-11 -0,0312
CFC-12 0,0358
TSI -0,0033
Аэрозоли 69,9680
Омнибус: 8,397 Дурбин-Ватсон: 1,448
Проб (Омнибус): 0,015
Жар-Бера (JB): 10,511
Перекос: -0,546 Проб (JB): 0,00522
Куртоз: 5,412
усл.№ 6.35e + 06
R Сценарий
train <- climate_change[climate_change$Year>=2006,]
prev <- lm(Temp ~ ., data = train[,3:NCOL(train)])
summary(prev)
R Результат
Остатки: Мин. 1Q Медиана 3Q Макс. -0.221684 -0.032846 0.002042 0.0371580,167887
Коэффициенты: MEI 0,036056 CO2 0,004817
CH4 -0,002366 N2O -0,013007 CFC-11 -0,033194 CFC-12 0,037775 TSI 0,009100 аэрозолей 70,463329 Остаточная стандартная ошибка: 0,07594 при 27 степенях свободы Multiple R-R0.5346, скорректированный R-квадрат: 0.3967 F-статистика: 3.877 на 8 и 27 DF, значение p: 0.003721
Вопрос
R-квадрат имеет большую разницу между ними,также коэффициенты независимой переменной имеют небольшую разницу.Кто-то может объяснить почему?