Question

У меня есть новичок в питоне и машинном обучении.У меня есть набор данных более 30 тыс. Наблюдений и сильно разбалансированный.Мне нужно создать два подмножества данных так, чтобы первое подмножество содержало 92% записей об успехах и 8% записей об ошибках, и то же самое относится ко второму подмножеству, учитывая, что эти два набора составляют 70-30 от общего набора данных.

len (data) = 30k

subset1 = 70% от 30k, так что он содержит (92% записей об успехах и 8% записей об ошибках)

subset1 = 30% от 30kтакой, что он содержит (92% записей об успехах и 8% записей об ошибках)

Это для двоичной классификации.Эти подмножество 1 и подмножество 2 должны использоваться для обучающих и тестовых наборов данных согласно бизнесу.

exan · Answer 1 · 12 октября 2018

Не имея доступа к набору данных, я могу дать вам несколько советов о том, как это сделать,

Разделить исходный кадр данных (df) на успех (df_s) и записи об ошибках (df_f)
df1 и df2 будут содержать по 15 тыс. Записей из df
с использованием pandas.DataFrame.Sample () извлекать 0,92 записи из df_s и 0,8 записи из df_f и помещать их в df1
все, что осталось в df_s и df_f переходит в df2 (Примечание: вам может понадобиться поиграться с этим последним шагом в зависимости от ваших данных)

Создайте два подмножества данных так, чтобы каждое подмножество имело равную пропорцию классов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создайте два подмножества данных так, чтобы каждое подмножество имело равную пропорцию классов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов