Question

Я пытаюсь сравнить несколько классификаторов в наборе данных, который у меня есть. Чтобы получить точные оценки точности для классификаторов, я сейчас выполняю 10-кратную перекрестную проверку для каждого классификатора. Это подходит для всех, кроме SVM (как линейного, так и rbf-ядра) Данные загружаются так:

dataset = pd.read_csv("data/distance_annotated_indels.txt", delimiter="\t", header=None)

X = dataset.iloc[:, [5,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26]].values
y = dataset.iloc[:, 4].values

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

Перекрестная проверка, например, для Случайного леса, работает нормально:

start = time.time()
classifier = RandomForestClassifier(n_estimators = 100, criterion = 'entropy')
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
cv = ShuffleSplit(n_splits=10, test_size=0.2)
scores = cross_val_score(classifier, X, y, cv=10)
print(classification_report(y_test, y_pred))
print("Random Forest accuracy after 10 fold CV: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2) + ", " + str(round(time.time() - start, 3)) + "s")

Выход:

             precision    recall  f1-score   support

          0       0.97      0.95      0.96      3427
          1       0.95      0.97      0.96      3417

avg / total       0.96      0.96      0.96      6844

Random Forest accuracy after 10 fold CV: 0.92 (+/- 0.06), 90.842s

Однако для SVM этот процесс занимает много времени (ждал 2 часа, все еще ничего). Сайт sklearn не делает меня мудрее. Есть ли что-то, что я должен сделать по-другому для классификаторов SVM? Код SVM выглядит следующим образом:

start = time.time()
classifier = SVC(kernel = 'linear')
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
scores = cross_val_score(classifier, X, y, cv=10)
print(classification_report(y_test, y_pred))
print("Linear SVM accuracy after 10 fold CV: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2) + ", " + str(round(time.time() - start, 3)) + "s")

hus · Answer 1 · 14 июня 2019

Также вы можете контролировать время с помощью изменения max_iter. Если он установлен в -1, он может идти вечно в соответствии с пространством решения. Установите некоторое целое значение, скажем, 10000 в качестве критерия остановки.

Davide Fiocco · Answer 2 · 07 мая 2018

Если у вас много выборок, вычислительная сложность задачи мешает, см. Сложность обучения линейного SVM .

Попробуйте поиграть с флагом verbose cross_val_score, чтобы увидеть больше логов о прогрессе. Кроме того, с n_jobs, установленным на значение> 1 (или даже с использованием всех процессоров с n_jobs, установленным на -1, если позволяет память), вы можете ускорить вычисления посредством распараллеливания. http://scikit -learn.org / stable / modules / generate / sklearn.model_selection.cross_val_score.html может быть полезно для оценки этих параметров.

Если производительность низкая, я бы подумал о снижении значения cv (см. https://stats.stackexchange.com/questions/27730/choice-of-k-in-k-fold-cross-validation для обсуждения этого вопроса)

Перекрестная проверка классификатора Sklearn SVM длится вечно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Перекрестная проверка классификатора Sklearn SVM длится вечно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы