Выбор классификатора / ядра - PullRequest
0 голосов
/ 16 января 2020

Диаграмма рассеяния моих данных показана ниже. Ось представляет элементы, а цвет маркеров соответствует моим трем меткам.

enter image description here

В настоящее время я использую классификатор SVM из sklearn, поскольку он работает лучше чем классификаторы деревьев и KNN, а также. GaussianProcessClassifier имеет производительность, аналогичную SVC. Для обоих я использую ядро ​​RBF.

>>> from sklearn.svm import SVC
>>> clf = SVC(kernel='rbf')
>>> cross_validate(clf, features_train, y, cv=StratifiedKFold(10), n_jobs=-1)
{'fit_time': array([0.00710368, 0.02112603, 0.03559923, 0.02111292, 0.02226472,
       0.00713944, 0.03336668, 0.02269149, 0.03299618, 0.02057195]), 'score_time': array([0.00098324, 0.0010438 , 0.00124049, 0.00108933, 0.00099158,
       0.00090766, 0.00162578, 0.0012877 , 0.00199199, 0.00112748]), 'test_score': array([0.33333333, 0.61904762, 0.48780488, 0.51219512, 0.58536585,
       0.53658537, 0.48780488, 0.575     , 0.4       , 0.43589744])}

Результаты тестов не столь многообещающие, и Bagging также не помог.

Для иллюстрированных данных, что будет хорошим выбором классификатора и ядра?

PS: я знаю, что возможен GridSearch для переворачивания гиперпараметров. Но риск переоснащения мешает мне сделать это.

...