Я пытаюсь понять, что делает параметр shuffle в StratifiedKFold из sklearn.model_selection.
Я прочитал документацию, но до сих пор не понимаю, что делает shuffle=True
. Может кто-нибудь объяснить, что shuffle=True
делает на простом английском sh?
Из документации :
shuffle: bool, default = False Следует ли перемешайте образцы каждого класса перед разделением на партии. Обратите внимание, что образцы в каждом разбиении не будут перемешиваться.
Реализация предназначена для:
- Генерация тестовых наборов, которые все содержат одинаковое распределение классов или как можно ближе возможно.
- Быть инвариантным к метке класса: изменение метки y = ["Happy", "Sad"] на y = [1, 0] не должно изменять сгенерированные индексы.
- Сохранять зависимости порядка в порядке набора данных, когда shuffle = False: все выборки из класса k в некотором тестовом наборе были смежными по y или разделены по y выборками из классов, отличных от k.
- Сгенерировать наборы тестов, в которых наименьшее и наибольшее отличаются не более чем на один образец.