Я хочу иметь возможность разделять поезд / валидацию с помощью пользовательской смеси целевой переменной. StratifiedKFold
и StratifiedShuffleSplit
от склеарна сохраняют смесь из исходного образца. Но в стычке или в реальной жизни у нас часто есть отдельный тестовый образец, который иногда может иметь совсем другую целевую смесь.
Давайте представим, что у нас есть проблема бинарной классификации, но у маркированного образца поезда есть смесь 50/50 целевых значений 0/1, в то время как в тесте нет меток, но из того или иного источника мы знаем, что пропорция скорее 90/10. Поэтому вопрос заключается в том, существует ли в sklearn метод для получения разделения исходного образца со смесью 90/10, где 90/10 будет входным аргументом.
Это не должно быть полное разделение CV по kfold, но, по крайней мере, генератор индекса перекрестной проверки ala StratifiedShuffleSplit