Я хочу использовать LinearRegression
и linregress
для расчета Intercept
, X_Variable_1
, R_Square
, Significance_F
, как регрессионный анализ в Excel.
Когда я использую этот код, нет ошибок.
from sklearn.linear_model import LinearRegression
import pandas as pd
import numpy as np
from scipy.stats import linregress
from decimal import *
def calculate_parameters():
list_a=[['2018', '3', 'aa', 'aa', 93,1884.7746222667, 165.36153386251098], ['2018', '3', 'bb', 'bb', 62, 665.6392779848, 125.30386609565328], ['2018', '3', 'cc', 'cc', 89, 580.2259903521, 160.19280253775514]]
df = pd.DataFrame(list_a)
X = df.iloc[:, 5]
y = df.iloc[:, 6]
X1 = X.values.reshape(-1, 1)
y1 = y.values.reshape(-1, 1)
clf = LinearRegression()
clf.fit(X1, y1)
yhat = clf.predict(X1)
para_Intercept = clf.intercept_[0]
para_X_Variable_1 = clf.coef_[0][0]
SS_Residual = sum((y1 - yhat) ** 2)
SS_Total = sum((y1 - np.mean(y1)) ** 2)
para_R_Square = 1 - (float(SS_Residual)) / SS_Total
adjusted_r_squared = 1 - (1 - para_R_Square) * (len(y1) - 1) / (len(y1) - X1.shape[1] - 1)
para_a = linregress(X, y)
para_Significance_F = para_a[3]
print("Intercept:"+str(para_Intercept))
print("X_Variable_1:"+str(para_X_Variable_1))
print("R_Square:" + str(para_R_Square[0]))
print("Significance_F:" + str(para_Significance_F))
if __name__ == "__main__":
calculate_parameters()
Вывод:
Intercept: +133,10871357512195
X_Variable_1: 0,016460552337949654
R_Square: 0,3039426453800934
Significance_F: 0,6282563718649847
Но на самом деле list_a
это нравится:
list_a = [['2018', '3', 'aa', 'aa', 93, Decimal('1884.7746222667'), 165.36153386251098],
['2018', '3', 'bb', 'bb', 62, Decimal('665.6392779848'), 125.30386609565328],
['2018', '3', 'cc', 'cc', 89, Decimal('580.2259903521'), 160.19280253775514]]
6-й столбец десятичного типа.
Когда я меняю list_a
, нравится это:
from sklearn.linear_model import LinearRegression
import pandas as pd
import numpy as np
from scipy.stats import linregress
from decimal import *
def calculate_parameters():
# list_a=[['2018', '3', 'aa', 'aa', 93,1884.7746222667, 165.36153386251098], ['2018', '3', 'bb', 'bb', 62, 665.6392779848, 125.30386609565328], ['2018', '3', 'cc', 'cc', 89, 580.2259903521, 160.19280253775514]]
list_a=[['2018', '3', 'aa', 'aa', 93,Decimal('1884.7746222667'), 165.36153386251098], ['2018', '3', 'bb', 'bb', 62, Decimal('665.6392779848'), 125.30386609565328], ['2018', '3', 'cc', 'cc', 89, Decimal('580.2259903521'), 160.19280253775514]]
df = pd.DataFrame(list_a)
X = df.iloc[:, 5]
y = df.iloc[:, 6]
X1 = X.values.reshape(-1, 1)
y1 = y.values.reshape(-1, 1)
clf = LinearRegression()
clf.fit(X1, y1)
yhat = clf.predict(X1)
para_Intercept = clf.intercept_[0]
para_X_Variable_1 = clf.coef_[0][0]
SS_Residual = sum((y1 - yhat) ** 2)
SS_Total = sum((y1 - np.mean(y1)) ** 2)
para_R_Square = 1 - (float(SS_Residual)) / SS_Total
adjusted_r_squared = 1 - (1 - para_R_Square) * (len(y1) - 1) / (len(y1) - X1.shape[1] - 1)
para_a = linregress(X, y)
para_Significance_F = para_a[3]
print("Intercept:"+str(para_Intercept))
print("X_Variable_1:"+str(para_X_Variable_1))
print("R_Square:" + str(para_R_Square[0]))
print("Significance_F:" + str(para_Significance_F))
if __name__ == "__main__":
calculate_parameters()
Ошибка:
Traceback (последний последний вызов):
Файл "E: /test_opencv/MyTest.py", строка 32, в
calculate_parameters ()
Файл "E: /test_opencv/MyTest.py", строка 24, в параметрах Calculate_parameters
para_a = linregress (X, y)
Файл "E: \ Anaconda3 \ lib \ site-packages \ scipy \ stats_stats_mstats_common.py", строка 79, в linregress
ssxm, ssxym, ssyxm, ssym = np.cov (x, y, смещение = 1). плоским
Файл "E: \ Anaconda3 \ lib \ site-packages \ numpy \ lib \ function_base.py", строка 3085, в формате cov
avg, w_sum = среднее (X, ось = 1, веса = w, возвращено = True)
Файл "E: \ Anaconda3 \ lib \ site-packages \ numpy \ lib \ function_base.py", строка 1163, в среднем
if scl.shape! = avg.shape:
AttributeError: объект 'float' не имеет атрибута 'shape'
Как исправить ошибку?