Это старая проблема прогнозирования с использованием регрессионного исследования данных Gapminder. Они использовали «пространство предсказания» для вычисления предсказания.
Q1. Почему я должен создавать «пространство предсказания»? Какая от этого польза?
Q2. Соотношение вычислительных прогнозов над «пространством предсказаний»?
import numpy as np
import pandas as pd
# Read the CSV file into a DataFrame: df
df = pd.read_csv('gapminder.csv')
Данные выглядят так:
Страна, год, жизнь, население, доходы, регион
Афганистан, 1800,28,211,3280000,603,0, Южная Азия
Словацкая Республика, 1960,70,47800000000001,4137224,8693.0, Европа и Центральная Азия
# Create arrays for features and target variable
y = df.life.values
X = df.fertility.values
# Reshape X and y
y = y.reshape(-1,1)
X = X.reshape(-1,1)
# Create the regressor: reg
reg = LinearRegression()
# Create the prediction space
prediction_space = np.linspace(min(X_fertility), max(X_fertility)).reshape(-1,1)
# Fit the model to the data
reg.fit(X_fertility, y)
# Compute predictions over the prediction space: y_pred
y_pred = reg.predict(prediction_space)