Почему я получаю сообщение об ошибке, когда параметру 'param_distributions' в RandomizedSearchCV присваивается список словарей? - PullRequest
1 голос
/ 03 апреля 2020

В документации я вижу, что параметр param_distribution принимает dict или список dict. Мой код здесь работает, когда я передаю словарь, но я получаю сообщение об ошибке, как только я передаю список словаря.

from sklearn.model_selection import train_test_split
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_breast_cancer
import pandas as pd
import numpy as np

breast_cancer = load_breast_cancer()
df = pd.DataFrame(load_breast_cancer().data, columns = breast_cancer.feature_names)
df['target'] = pd.Series(load_breast_cancer().target)
df.head()

Xi = df.iloc[:,:-1]
Yi = df.iloc[:,-1]

x_train1, x_test1, y_train1, y_test1 = train_test_split(Xi, Yi, train_size = 0.9)
dist = [{'C': np.random.uniform(34,89,4)}, {"C": np.random.uniform(2, 16, 5)}]    # {"C": uniform(4, 97)}
rcv = RandomizedSearchCV(estimator = LogisticRegression(), cv = 5, scoring= 'roc_auc', n_jobs= 5,
                         param_distributions= dist, n_iter = 10)

rcv.fit(x_train1, y_train1)

Вывод:

Traceback AttributeError (последний вызов был последним)

AttributeError: объект списка не имеет атрибута значения '

Мой код работает нормально, когда я заменяю этот Список Dict одним словарем, например

dist = {'C': np.random.uniform(34,89,45)}

rcv = RandomizedSearchCV(estimator = LogisticRegression(), cv = 5, scoring= 'roc_auc', n_jobs= 5,
                         param_distributions= dist, n_iter = 20)

rcv.fit(x_train1, y_train1)

Вывод:

RandomizedSearchCV(cv=5, error_score='raise-deprecating',
                   estimator=LogisticRegression(C=1.0, class_weight=None,
                                                dual=False, fit_intercept=True,
                                                intercept_scaling=1,
                                                l1_ratio=None, max_iter=100,
                                                multi_class='warn', n_jobs=None,
                                                penalty='l2', random_state=None,
                                                solver='warn', tol=0.0001,
                                                verbose=0, warm_start=False),
                   iid='warn', n_iter=20, n_jobs=5,
                   param_distributions...
       68.32247988, 53.2886396 , 64.71957325, 53.42115708, 66.06577109,
       54.09200687, 87.22769322, 81.02240252, 55.25783926, 84.31009298,
       71.13884939, 85.74823239, 87.23400718, 54.48527833, 59.49131351,
       63.59157499, 38.9348315 , 51.5738502 , 82.72414647, 75.27901268,
       42.63960409, 40.65314118, 56.97608301, 66.41059041, 58.37528729])},
                   pre_dispatch='2*n_jobs', random_state=None, refit=True,
                   return_train_score=False, scoring='roc_auc', verbose=0)

1 Ответ

0 голосов
/ 04 апреля 2020

Приведенный выше код работает с версией sklearn v0.22.2 в соответствии с предложением @SergeyBushmanov. Мне также пришлось настроить значение параметра n_iter, чтобы избежать предупреждающих сообщений. Перед тем, как параметр был установлен на 20, из-за чего эти предупреждения появились. Эти предупреждения тоже были законными, поскольку у меня есть два гиперпараметра ("C") dist = [{'C': np.random.uniform(34,89,4)}, {"C": np.random.uniform(2, 16, 5)}]. Теперь в общей сложности есть 4x5 = 20 комбинаций гиперпараметров, которые нужно попробовать. n_iter указывает количество комбинаций, которые нужно попробовать. Если n_iter = 10, это означает, что из 20, RandomSearchCV будет примерить случайные 10 комбинаций значений гиперпараметра.

...