У меня есть некоторые данные, которые я читаю из файла CSV и пытаюсь подогнать регрессионную модель Байес-Риджа, но получаю ошибку Input contains NaN, infinity or a value too large for dtype('float64')
... Любые советы очень ценятся
import pandas as pd
import numpy as np
df = pd.read_csv('C:/Users/baselinekWh.csv', index_col='Date', parse_dates=True)
df
Iне думаю, что есть какие-либо данные NaN, потому что я могу разбросить график без проблем с matplotlib:
import matplotlib.pyplot as plt
plt.scatter(df['OSAT'], df['kWh'], color='grey', marker='+')
plt.xlabel('OSAT')
plt.ylabel('kWh')
plt.title('kWh Model')
plt.legend()
plt.show()
A df.describe () `выглядит следующим образом:
И когда я пытаюсь соответствовать модели, я получаю ошибку ... Любые советы?Я пытаюсь выполнить некоторые шаги с сайта Sci Kit Learn.Это могут быть параметры, которые я называю проблемой?Мудрости там пока немного;) http://scikit -learn.org / stable / modules / linear_model.html # bayesian-ridge-regression
from sklearn import linear_model
X = df[list(set(df.columns).difference(['kWh']))].values # X-> features
Y = df[['kWh']].values # Y -> target
reg = linear_model.BayesianRidge(alpha_1=1e-06, alpha_2=1e-06, compute_score=False, copy_X=True,
fit_intercept=True, lambda_1=1e-06, lambda_2=1e-06, n_iter=300,
normalize=False, tol=0.001, verbose=False)
reg.fit(X, Y)