Я пытаюсь классифицировать данные около 5000 записей с около 1000 значений истинности на 2 класса, используя SVM. Мой код из приведенного ниже примера:
from sklearn import svm
clf = svm.SVC()
clf.fit(X, Y)
, поэтому я использую большинство значений по умолчанию. Дисперсия очень высока для меня. Точность обучения составляет более 95%, в то время как тест, который я делаю для извлечения около 50 записей из набора данных, составляет 50%.
Однако, если я изменю размер обучения тестовых данных примерно на 3000 и 2000 записей, то точность обучения падает до 80%, а точность теста повышается. Почему это происходит?
Теперь, если я изменю библиотеку scikit-learn на логистическую регрессию, проценты останутся неизменными. Почему это так?