Выборка на основе зависимых данных - PullRequest
1 голос
/ 23 сентября 2019

Мой фрейм данных состоит из 10 миллионов записей с 6 столбцами.Класс (is_active) очень несбалансирован (1-96%, 0-4%). ​​

Фрейм данных выглядит как -

id      age    gender    salary   bonus  is_active
1        27     M         76543    762     0
2        36     F         87352    1050    1
3        29     M         76598    7364    1
4        61     M         74632    3475    0

Я хочу фрейм данных, в котором моя зависимая переменная (is_active) рацион должен быть 1-75%, 0-25%.

Как это сделать в python?

1 Ответ

1 голос
/ 23 сентября 2019

Один способ будет попытаться это сделать,

df_1 = df[df['is_active']==1]
df_2 = df[df['is_active']==0]
df_1= df_1.sample(n = len(df_2)*3)
df=pd.concat([df_1, df_2], ignore_index=True)
  1. разделить ваш фрейм данных на две части на основе is_active.
  2. взять все строки в отрицательной выборке.
  3. выполнить выборку df_2 на основе длины df_1
  4. , сопоставить оба кадра данных.

Последний тест:

print (df['is_active'].value_counts(normalize=True))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...