Создайте два подмножества данных так, чтобы каждое подмножество имело равную пропорцию классов - PullRequest
0 голосов
/ 12 октября 2018

У меня есть новичок в питоне и машинном обучении.У меня есть набор данных более 30 тыс. Наблюдений и сильно разбалансированный.Мне нужно создать два подмножества данных так, чтобы первое подмножество содержало 92% записей об успехах и 8% записей об ошибках, и то же самое относится ко второму подмножеству, учитывая, что эти два набора составляют 70-30 от общего набора данных.

len (data) = 30k

subset1 = 70% от 30k, так что он содержит (92% записей об успехах и 8% записей об ошибках)

subset1 = 30% от 30kтакой, что он содержит (92% записей об успехах и 8% записей об ошибках)

Это для двоичной классификации.Эти подмножество 1 и подмножество 2 должны использоваться для обучающих и тестовых наборов данных согласно бизнесу.

1 Ответ

0 голосов
/ 12 октября 2018

Не имея доступа к набору данных, я могу дать вам несколько советов о том, как это сделать,

  • Разделить исходный кадр данных (df) на успех (df_s) и записи об ошибках (df_f)
  • df1 и df2 будут содержать по 15 тыс. Записей из df
  • с использованием pandas.DataFrame.Sample () извлекать 0,92 записи из df_s и 0,8 записи из df_f и помещать их в df1
  • все, что осталось в df_s и df_f переходит в df2 (Примечание: вам может понадобиться поиграться с этим последним шагом в зависимости от ваших данных)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...