Я учусь запускать модель K-средних с использованием make_pipeline для стандартизации значений моих столбцов набора данных.
Я слежу за курсом DataCamp, но мне не ясно, почему они подходят и предсказывают модель на одном и том же наборе данных - в случае "перемещений" в случае Datacamp, ежедневном наборе данных стоимости акций.Я думал, что вся цель модели K-средних состояла в том, чтобы пройти обучение на наборе обучающих данных и предсказать тестовый набор?
В отличие от случая с Datacamp, я бы хотел обучить свою модель на стандартизированном по столбцам обучениюнабор данных и проверить его на стандартизированном наборе данных тестирования столбцов.Как это сделать?Я копирую и вставляю приведенный ниже код Datacamp для справки.
# Import Normalizer
from sklearn.preprocessing import Normalizer
# Create a normalizer: normalizer
normalizer = Normalizer()
# Create a KMeans model with 10 clusters: kmeans
kmeans = KMeans(n_clusters = 5)
# Make a pipeline chaining normalizer and kmeans: pipeline
pipeline = make_pipeline(normalizer, kmeans)
# Fit pipeline to the daily price movements
pipeline.fit(movements)
# Predict the cluster labels: labels
labels = pipeline.predict(movements)