низкая точность классификации с использованием SVM - PullRequest
0 голосов
/ 31 августа 2018

Я пытаюсь классифицировать данные около 5000 записей с около 1000 значений истинности на 2 класса, используя SVM. Мой код из приведенного ниже примера:

from sklearn import svm
clf = svm.SVC()
clf.fit(X, Y)

, поэтому я использую большинство значений по умолчанию. Дисперсия очень высока для меня. Точность обучения составляет более 95%, в то время как тест, который я делаю для извлечения около 50 записей из набора данных, составляет 50%.

Однако, если я изменю размер обучения тестовых данных примерно на 3000 и 2000 записей, то точность обучения падает до 80%, а точность теста повышается. Почему это происходит?

Теперь, если я изменю библиотеку scikit-learn на логистическую регрессию, проценты останутся неизменными. Почему это так?

1 Ответ

0 голосов
/ 13 сентября 2018

каждая модификация в SVM создает новую точность, помните, что точность данных обучения не совпадает с точностью реальных данных. если вы стремитесь к высокой точности в обоих случаях, я советую сначала очистить данные.

...