Увеличьте размер выборки (n >> 100).Данные, из которых вы делаете выборку, сами по себе являются случайной выборкой.Создание подмножества путем случайного выбора само по себе является случайным процессом.Если один из классов данных имеет низкую частоту, проблема заключается в том, что размер выборки (100) слишком мал.
Если вы измените флаг замены на «True» и выполните повторные выборки, вы делаете что-тоназывается начальной загрузкой.Предполагая, что полный набор данных представляет собой истинное распределение населения, эта повторная выборка даст вам примеры того, какие измерения вы можете получить для более низких значений n (n = 100).
Альтернативой является стратегия стратификации, предложеннаянекоторые выше.Однако при этом вы не создаете случайные подмножества, и предположение о распределении теперь встроено в ваши меньшие наборы данных.Обратите внимание, что вы можете достичь этого только после просмотра всего набора данных, чтобы определить его распределение.Возможно, это не то, что вам нужно.
Если вы создаете (контролируемый) набор обучающих данных из данных, вы можете повторить недостаточно представленные данные, чтобы манипулировать смещением.