Проблема в том, что pipelines=[random_forest_pipeline,svm_pipeline]
- это список, не имеющий метода fit
.
Даже если бы вы могли заставить его работать таким образом, в какой-то момент 'random_forest__min_samples_split':[50,100,250,500]
будет передан в svm_pipeline
, и это вызовет ошибку.
ValueError: Недопустимый параметр svm для конвейера оценки
Вы не можете смешать таким образом 2 конвейера, потому что в какой-то момент вы запрашиваете svm_pipeline
оценивается с использованием значений random_forest__min_samples_split
, и это НЕВЕРНО.
Решение: Fit a GridSearch object for the Random forest model and another GridSearch object for the SVC model
pipelines=[random_forest_pipeline,svm_pipeline]
grid_search_1=GridSearchCV(pipelines[0],param_grid=parameters[0],cv=3,n_jobs=-1)
grid_search_1.fit(X,y)
grid_search_2=GridSearchCV(pipelines[1],param_grid=parameters[1],cv=3,n_jobs=-1)
grid_search_2.fit(X,y)
Полный код:
random_forest_pipeline=Pipeline([
('vectorizer',CountVectorizer(stop_words='english')),
('random_forest',RandomForestClassifier())
])
svm_pipeline=Pipeline([
('vectorizer',CountVectorizer(stop_words='english')),
('svm',LinearSVC())
])
parameters=[
{
'vectorizer__max_features':[500,1000,1500],
'random_forest__min_samples_split':[50,100,250,500]
},
{
'vectorizer__max_features':[500,1000,1500],
'svm__C':[1,3,5]
}
]
pipelines=[random_forest_pipeline,svm_pipeline]
# gridsearch only for the Random Forest model
grid_search_1 =GridSearchCV(pipelines[0],param_grid=parameters[0],cv=3,n_jobs=-1)
grid_search_1.fit(X,y)
# gridsearch only for the SVC model
grid_search_2 =GridSearchCV(pipelines[1],param_grid=parameters[1],cv=3,n_jobs=-1)
grid_search_2.fit(X,y)
EDIT
Если вы явно определяете модели в списке param_grid
, то это возможно на основе документации.
Ссылка: https://scikit-learn.org/stable/auto_examples/compose/plot_compare_reduction.html?highlight=pipeline%20gridsearch
Код из do c:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC
from sklearn.decomposition import PCA, NMF
from sklearn.feature_selection import SelectKBest, chi2
print(__doc__)
pipe = Pipeline([
# the reduce_dim stage is populated by the param_grid
('reduce_dim', 'passthrough'),
('classify', LinearSVC(dual=False, max_iter=10000))
])
N_FEATURES_OPTIONS = [2, 4, 8]
C_OPTIONS = [1, 10, 100, 1000]
param_grid = [
{
'reduce_dim': [PCA(iterated_power=7), NMF()],
'reduce_dim__n_components': N_FEATURES_OPTIONS,
'classify__C': C_OPTIONS
},
{
'reduce_dim': [SelectKBest(chi2)],
'reduce_dim__k': N_FEATURES_OPTIONS,
'classify__C': C_OPTIONS
},
]
reducer_labels = ['PCA', 'NMF', 'KBest(chi2)']
grid = GridSearchCV(pipe, n_jobs=1, param_grid=param_grid)
X, y = load_digits(return_X_y=True)
grid.fit(X, y)