Я работаю над проблемой бинарной классификации и использую большой набор данных (количество выборок велико, функций не так много). Данные являются дисбалансом, но я использую массив весов, который решает эту проблему (вроде).
Я пробовал некоторые классификаторы со sklearn в небольшой версии этого набора, и, очевидно, SVM хорошо работает для того, что я хочу. Однако, как только я пытаюсь вписать SVM во весь набор данных, это занимает вечность (и у меня также заканчивается память).
Что я хочу знать, так это то, что в Sklearn есть какой-нибудь быстрый способ разделить этот набор, скажем, на 10 подмножеств, сохраняя пропорцию классов, так что я могу затем разделить каждый из этих подмножеств на обучение / тестирование и приспособить SVM независимо для каждого подмножества (чтобы я мог использовать разные процессоры тоже)?