Question

Мой фрейм данных состоит из 10 миллионов записей с 6 столбцами.Класс (is_active) очень несбалансирован (1-96%, 0-4%).

Фрейм данных выглядит как -

id      age    gender    salary   bonus  is_active
1        27     M         76543    762     0
2        36     F         87352    1050    1
3        29     M         76598    7364    1
4        61     M         74632    3475    0

Я хочу фрейм данных, в котором моя зависимая переменная (is_active) рацион должен быть 1-75%, 0-25%.

Как это сделать в python?

Mohamed Thasin ah · Answer 1 · 23 сентября 2019

Один способ будет попытаться это сделать,

df_1 = df[df['is_active']==1]
df_2 = df[df['is_active']==0]
df_1= df_1.sample(n = len(df_2)*3)
df=pd.concat([df_1, df_2], ignore_index=True)

разделить ваш фрейм данных на две части на основе is_active.
взять все строки в отрицательной выборке.
выполнить выборку df_2 на основе длины df_1
, сопоставить оба кадра данных.

Последний тест:

print (df['is_active'].value_counts(normalize=True))

Выборка на основе зависимых данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Выборка на основе зависимых данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов