У меня есть новичок в питоне и машинном обучении.У меня есть набор данных более 30 тыс. Наблюдений и сильно разбалансированный.Мне нужно создать два подмножества данных так, чтобы первое подмножество содержало 92% записей об успехах и 8% записей об ошибках, и то же самое относится ко второму подмножеству, учитывая, что эти два набора составляют 70-30 от общего набора данных.
len (data) = 30k
subset1 = 70% от 30k, так что он содержит (92% записей об успехах и 8% записей об ошибках)
subset1 = 30% от 30kтакой, что он содержит (92% записей об успехах и 8% записей об ошибках)
Это для двоичной классификации.Эти подмножество 1 и подмножество 2 должны использоваться для обучающих и тестовых наборов данных согласно бизнесу.