Повышение точности моего логистического регрессионного тестирования до точности обучения с Python - PullRequest
0 голосов
/ 03 апреля 2019

У меня есть набор данных баскетбольной статистики с 656 факторами. Я использую классификатор логистической регрессии, чтобы предсказать победителей и проигравших (победа команды 1 или команды 2), вычитая статистику команды 1 из статистики команды 2. Кроме нормализации, как я могу улучшить точность своего тестового набора, чтобы приблизить его к точности тренировочного набора или просто улучшить точность в целом?

Я видел нормализацию как возможное решение, но, поскольку я делаю различие в статистике, большинство значений находятся в одном диапазоне

Код:

X = final_data_array[:,:656]

Y = final_data_array[:,656]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y)

logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)

print(logistic.score(X_test, Y_test))

print(logistic.score(X_train, Y_train))

0.7818791946308725

0.9069506726457399

1 Ответ

0 голосов
/ 03 апреля 2019

Вы можете попытаться выполнить некоторые функции проектирования набора данных, помимо этого нормализовать набор данных и проверить точность. Я также рекомендую вам попробовать другие алгоритмы классификации, такие как xgbclassifier, классификатор случайных лесов и т. Д.

...