sklearn Высокий балл с низкой производительностью - PullRequest
0 голосов
/ 18 февраля 2019

Не могли бы вы помочь мне решить, сталкиваюсь ли я с ошибкой или проблема может быть в моей реализации?

У меня есть набор данных с 5 функциями и более 2000 наблюдений, и я использую SVR для регрессиитестирует и выбирает параметры с помощью сетки поиска.Если я не масштабирую свои данные, тогда я получаю лучший результат, близкий к нулю, но если я действительно масштабирую его, то лучший результат будет около 0,90.

Когда я вручную тестирую данные, он прогнозирует невернозначения совершенно случайно.Как это может быть?Я ожидаю, что лучший результат покажет, насколько хорошо проверенные данные могли быть проверены на новых во время перекрестной проверки.Я полагаю, что не должен получать высокие оценки, если моя модель не может генерировать хорошо.Нужно ли мне?Может ли это быть ошибкой?

Версия SKlearn - 0.19.1 (из пакета платформы Ubuntu Linux 18.04 x64 LTS) Версия Python - 3.6.7

Стоит ли обновляться с помощью pip?Есть еще идеи?Спасибо.

Редактировать: см. Следующий код, который дает высокий балл, по-прежнему плохо обобщает - хотя это регрессия, оценка должна отражать разницу прогнозируемых значений от тестовых значений:

C_range = 2.0 ** np.arange(-5, 15, 2)
gamma_range = 2.0 ** np.arange(-5, 15, 2)
parameters = {"kernel":["rbf"], "C":C_range, "gamma":gamma_range}
estimator = svm.SVR()
clf = GridSearchCV(estimator, parameters, cv=3, n_jobs=-1, verbose=0)
clf.fit(x, y)
print( clf.best_score_ )
...