Question

У меня есть набор данных баскетбольной статистики с 656 факторами. Я использую классификатор логистической регрессии, чтобы предсказать победителей и проигравших (победа команды 1 или команды 2), вычитая статистику команды 1 из статистики команды 2. Кроме нормализации, как я могу улучшить точность своего тестового набора, чтобы приблизить его к точности тренировочного набора или просто улучшить точность в целом?

Я видел нормализацию как возможное решение, но, поскольку я делаю различие в статистике, большинство значений находятся в одном диапазоне

Код:

X = final_data_array[:,:656]

Y = final_data_array[:,656]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y)

logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)

print(logistic.score(X_test, Y_test))

print(logistic.score(X_train, Y_train))

0.7818791946308725

0.9069506726457399

Tahir Han · Answer 1 · 03 апреля 2019

Вы можете попытаться выполнить некоторые функции проектирования набора данных, помимо этого нормализовать набор данных и проверить точность. Я также рекомендую вам попробовать другие алгоритмы классификации, такие как xgbclassifier, классификатор случайных лесов и т. Д.

Повышение точности моего логистического регрессионного тестирования до точности обучения с Python

Код:

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Повышение точности моего логистического регрессионного тестирования до точности обучения с Python

Код:

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы