Question

Я пытался изучить работу gridsearchCV, тестируя его на Knearistneighbors. Когда я присвоил n_neighbors = 9, мой классификатор дал оценку 0,9122807017543859

, но когда я использовал gridsearchCV, указав в списке n_neighbors = 9, я получил оценку 0,8947368421052632.

Что могло может быть причина? Любые усилия приветствуются. Вот мой код

from sklearn import datasets
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split as splitter
import pickle       
from sklearn.neighbors import KNeighborsClassifier  
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# Data pre-processing  <-----------------------

data = datasets.load_breast_cancer()
p=data
add=data.target.reshape(569,1)  
columns = np.append(data.feature_names, 
                    data.target_names[0],
                    axis=None)
data = np.append(data.data,
                 add,
                 axis=1)                        
df = pd.DataFrame(data=data,columns=columns)

X_train,X_test,y_train,y_test = splitter(p.data,
                                         p.target,
                                         test_size=0.3,
                                         random_state=12)




gauss = KNeighborsClassifier(n_neighbors=9)

param_grid={'n_neighbors':[1,2,3,4,5,6,7,8,9,11,12,13,10]}

gausCV = GridSearchCV(KNeighborsClassifier(),param_grid,verbose=False)


gauss.fit(X_train,y_train)
gausCV.fit(X_train,y_train)

print(gauss.score(X_test,y_test))
print(gausCV.score(X_test,y_test))

вот что я получил

0.9122807017543859
0.8947368421052632

Savage Henry · Answer 1 · 07 февраля 2020

Проблема не в количестве соседей, а в "перекрестной проверке". Процесс GridSearchCV не только пытается выполнить все значения, которые есть в param_grid, но также выполняет некоторые манипуляции с данными: «сворачивание» данных. Это повторяет выборку данных многократно, чтобы сделать окончательный классификатор максимально устойчивым к новым данным. Учитывая, насколько близки баллы, которые вы получаете между моделями gauss и gausCV, почти наверняка, что получаемые данные влияют на результаты, но не сильно.

Это хороший пример того, почему простое принятие модели с наивысшим «баллом» не всегда может быть лучшим путем: я бы больше верил в модель, которая получила хорошие оценки после прохождения перекрестной проверки, чем одна. что не было (при прочих равных).

Вот хорошее описание того, что происходит при выполнении перекрестной проверки.

Не получая лучших результатов после использования gridsearchCV (), скорее поправляясь вручную

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Не получая лучших результатов после использования gridsearchCV (), скорее поправляясь вручную

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы