Данные выборки так, что распределение сохраняется - PullRequest
0 голосов
/ 24 апреля 2018

vsample_data = credit_card.sample (n = 100, replace = 'False')

печать (vsample_data)

Здесь я пытался выбрать 100 точек данных из набора данных, но не смог получить правильные данные выборки, чтобы он сохранял исходное распределение набора данных о мошенничестве с кредитными картами, то есть Class-0 (Non-Fraud) и Класс-1 (мошенничество).

1 Ответ

0 голосов
/ 25 апреля 2018

Увеличьте размер выборки (n >> 100).Данные, из которых вы делаете выборку, сами по себе являются случайной выборкой.Создание подмножества путем случайного выбора само по себе является случайным процессом.Если один из классов данных имеет низкую частоту, проблема заключается в том, что размер выборки (100) слишком мал.

Если вы измените флаг замены на «True» и выполните повторные выборки, вы делаете что-тоназывается начальной загрузкой.Предполагая, что полный набор данных представляет собой истинное распределение населения, эта повторная выборка даст вам примеры того, какие измерения вы можете получить для более низких значений n (n = 100).

Альтернативой является стратегия стратификации, предложеннаянекоторые выше.Однако при этом вы не создаете случайные подмножества, и предположение о распределении теперь встроено в ваши меньшие наборы данных.Обратите внимание, что вы можете достичь этого только после просмотра всего набора данных, чтобы определить его распределение.Возможно, это не то, что вам нужно.

Если вы создаете (контролируемый) набор обучающих данных из данных, вы можете повторить недостаточно представленные данные, чтобы манипулировать смещением.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...