У меня проблема с классификацией: 2500 строк. 25000 столбцов 88 разных классов неравномерно распределены
А потом произошло нечто очень странное:
Когда я запускаю дюжину разных поездов сплит-тестов, я всегда получаю около 60% ...
И когда я запускаю перекрестную проверку, я всегда получаю около 50%. Вот экран: введите описание изображения здесь Более того, это не имеет ничего общего с неравномерным распределением классов, потому что, когда я помещаю stratify = y в TTS, я остаюсь на уровне около 60%, а когда я устанавливаю StratifiedKFold, я остаюсь на уровне 50%.
Что запомнить? Почему разница? Для меня резюме было просто последовательностью разбиений тестовых поездов с разными разбиениями друг от друга, поэтому ничто не оправдывает такую разницу в баллах.