У меня есть набор данных баскетбольной статистики с 656 факторами. Я использую классификатор логистической регрессии, чтобы предсказать победителей и проигравших (победа команды 1 или команды 2), вычитая статистику команды 1 из статистики команды 2. Кроме нормализации, как я могу улучшить точность своего тестового набора, чтобы приблизить его к точности тренировочного набора или просто улучшить точность в целом?
Я видел нормализацию как возможное решение, но, поскольку я делаю различие в статистике, большинство значений находятся в одном диапазоне
Код:
X = final_data_array[:,:656]
Y = final_data_array[:,656]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)
print(logistic.score(X_test, Y_test))
print(logistic.score(X_train, Y_train))
0.7818791946308725
0.9069506726457399