StratifiedShuffleSplit со многими классами и небольшим размером теста - PullRequest
0 голосов
/ 10 октября 2018

У меня есть набор данных размером ~ 7000 с более чем 2000 классов.Используя StratifiedShuffleSplit с test_size=0.2, я получаю ошибку:

ValueError: The test_size = 1364 should be greater or equal to the number of classes = 2030  

Очевидно, что балансировка классов в тестовом наборе невозможна, но я забочусь в основном о балансе в наборе поездов.Могу ли я использовать StratifiedShuffleSplit с такими данными?

...