Как стандартизировать обучающий и тестовый набор данных через make_pipeline () - PullRequest
0 голосов
/ 23 декабря 2018

Я учусь запускать модель K-средних с использованием make_pipeline для стандартизации значений моих столбцов набора данных.

Я слежу за курсом DataCamp, но мне не ясно, почему они подходят и предсказывают модель на одном и том же наборе данных - в случае "перемещений" в случае Datacamp, ежедневном наборе данных стоимости акций.Я думал, что вся цель модели K-средних состояла в том, чтобы пройти обучение на наборе обучающих данных и предсказать тестовый набор?

В отличие от случая с Datacamp, я бы хотел обучить свою модель на стандартизированном по столбцам обучениюнабор данных и проверить его на стандартизированном наборе данных тестирования столбцов.Как это сделать?Я копирую и вставляю приведенный ниже код Datacamp для справки.

# Import Normalizer
from sklearn.preprocessing import Normalizer 

# Create a normalizer: normalizer
normalizer = Normalizer()

# Create a KMeans model with 10 clusters: kmeans
kmeans = KMeans(n_clusters = 5)

# Make a pipeline chaining normalizer and kmeans: pipeline
pipeline = make_pipeline(normalizer, kmeans)

# Fit pipeline to the daily price movements
pipeline.fit(movements)

# Predict the cluster labels: labels
labels = pipeline.predict(movements)

1 Ответ

0 голосов
/ 24 декабря 2018

Я думаю, что вы путаете между KNN и моделью K-Means.KNN - это модель, используемая в контролируемом обучении как для классификации, так и для регрессии, тогда как K-Means - это модель кластеризации, которая подвергается обучению без учителя (здесь у вас нет целевой переменной!), Где обычно не проводится разделение по обучению и тестированию..

Если вы хотите измерить производительность K-Means, прочитайте здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...