Диаграмма рассеяния моих данных показана ниже. Ось представляет элементы, а цвет маркеров соответствует моим трем меткам.
В настоящее время я использую классификатор SVM из sklearn
, поскольку он работает лучше чем классификаторы деревьев и KNN, а также. GaussianProcessClassifier
имеет производительность, аналогичную SVC
. Для обоих я использую ядро RBF
.
>>> from sklearn.svm import SVC
>>> clf = SVC(kernel='rbf')
>>> cross_validate(clf, features_train, y, cv=StratifiedKFold(10), n_jobs=-1)
{'fit_time': array([0.00710368, 0.02112603, 0.03559923, 0.02111292, 0.02226472,
0.00713944, 0.03336668, 0.02269149, 0.03299618, 0.02057195]), 'score_time': array([0.00098324, 0.0010438 , 0.00124049, 0.00108933, 0.00099158,
0.00090766, 0.00162578, 0.0012877 , 0.00199199, 0.00112748]), 'test_score': array([0.33333333, 0.61904762, 0.48780488, 0.51219512, 0.58536585,
0.53658537, 0.48780488, 0.575 , 0.4 , 0.43589744])}
Результаты тестов не столь многообещающие, и Bagging также не помог.
Для иллюстрированных данных, что будет хорошим выбором классификатора и ядра?
PS: я знаю, что возможен GridSearch для переворачивания гиперпараметров. Но риск переоснащения мешает мне сделать это.