Я написал простой сценарий Python, который использует sklearn.neural_network.MLPClassifier
и sklearn.model_selection.GridSearchCV
для прогнозирования данных двоичной классификации, каждая точка помечена 0 или 1. В обучающих данных примерно 90% имеют метку. 1 и 10% имеют метку 0. В тестовых данных примерно 35% имеют метку 1 и 65% имеют метку 0. Эта пропорция известна, хотя метки неизвестны.
Моя модель в настоящее время переоборудован. Моя оценка перекрестной проверки данных обучения составляет 85-90%, но оценка, когда я запускаю код на тестовом наборе, ниже 40%.
Один обходной путь, о котором я подумал, заключается в том, что я могу попробовать установить GridSearchCV
для разделения данных, чтобы каждый набор для обучения / проверки имел примерно такую же пропорцию меток, что и тестовые данные. Однако, похоже, это не вариант с этой библиотекой, и мой google-fu не дал никаких результатов с точки зрения других программ обучения sci-kit.
Есть ли другие библиотеки, которые я мог бы использовать, или параметр, который я мог ввести, но не нашел? Спасибо.