Я пытаюсь вычислить смещение и дисперсию модели линейной регрессии pyspark. Я начинаю с полинома 3-й степени, добавляю немного шума и подгоняю модель линейной регрессии с разной степенью полиномиального расширения. Цель состоит в том, чтобы показать, что смещение уменьшается, а дисперсия увеличивается с увеличением степени полиномиального расширения. В моем коде ниже смещение модели остается постоянным, потому что среднее значение прогноза одинаково для полиномиальных степеней 1, 2 и 3. Я должен вычислять смещение неправильно, и мне также интересно, правильно ли я вычисляю дисперсию. Может ли кто-нибудь проверить, правильно ли я вычисляю смещение (или нет), и помочь мне выяснить, почему смещение остается неизменным независимо от степени расширения полинома. Приветствуются все комментарии о любых неверных кодах.
from pyspark.sql import SparkSession
from pyspark.ml import feature, regression, Pipeline
from pyspark.sql import functions as fn
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext
# create numpy arrays for x and y data
x = np.linspace(-15, 15, 250)
y = 10 + 5*x + 0.5*np.square(x) - 0.1*np.power(x,3)
reducible_error = np.random.uniform(-50, 50, len(x))
irreducible_error = np.random.normal(0, 8, len(x))
y_noise = y + reducible_error + irreducible_error
# plot x and y data
%matplotlib inline
plt.figure()
plt.plot(x,y, c='r', label="y")
plt.scatter(x, y_noise, label="y_noise")
plt.legend()
plt.title("10 + 5x + 0.5x^2 - 0.1x^3")
plt.xlabel("x")
plt.ylabel("y, y_noise")
# create a pandas dataframe from the x, y, y_hat data arrays
pd_df = pd.DataFrame({'x': x, 'y_noise': y_noise, 'y': y}, columns=['x', 'y_noise', 'y'])
# create a spark dataframe from the pandas dataframe
df = spark.createDataFrame(pd_df)
df.show()
def get_bias_squared(df):
f_hat_mean = np.mean(df['prediction'])
return np.mean(np.square(df['y_noise'] - f_hat_mean))
def get_variance(df):
f_hat_mean = np.mean(df['prediction'])
diff = df['prediction'] - f_hat_mean
return np.mean(np.square(diff))
def plot_poly_expansion(n, df, lambda_reg=0., alpha_reg=0.):
# create the pipeline
va = feature.VectorAssembler(inputCols=['x'], outputCol='features')
pe = feature.PolynomialExpansion(degree=n, inputCol='features', outputCol='poly_features')
lr = regression.LinearRegression(featuresCol='poly_features', labelCol='y_noise', regParam=lambda_reg,
elasticNetParam=alpha_reg)
pipe = Pipeline(stages=[va, pe, lr]).fit(df)
# fit the pipeline
fit_df = pipe.transform(df)
# convert the fitted spark dataframe to pandas and plot predicted vs. actual
fit_pd_df = fit_df.toPandas()
# display(fit_pd_df.head())
fit_pd_df.plot(x='x', y=['y', 'y_noise', 'prediction'])
plt.title("Polynomial degree = %s\nBias = %s, Variance = %s" % (i, get_bias_squared(fit_pd_df),
get_variance(fit_pd_df)))
plt.xlabel("x")
plt.ylabel("y")
return fit_pd_df
for i in np.arange(1, 4):
plot_poly_expansion(float(i), df)