Как получить сбалансированный датафрейм в Python - PullRequest
0 голосов
/ 15 декабря 2018

У меня есть DataFrame, содержащий 4000 строк.Я хотел бы выбрать 20 случайных строк из этого кадра данных.

Новый DataFrame должен быть сбалансирован.Это означает, что у меня есть атрибут с именем default, который может принимать два значения: да или нет.Таким образом, новый сбалансированный DataFrame должен содержать 10 выборок с да и 10 выборок с нет.

Можете ли вы мне помочь?

1 Ответ

0 голосов
/ 15 декабря 2018

Возможно, это не самое элегантное решение.

Сначала сгруппируйте их по классу

group_object = df.groupby('class')

Затем для каждого класса примените лямбда-функцию

group_object.apply(lambda x:x.sample(frac = 0.0025))

Проверкадокументация для образца метода

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...