У меня большая проблема с несбалансированной классификацией, и я хочу решить эту проблему путем избыточной выборки младших классов. (N (класс 1) = 8,5 млн., N (класс n) = 3000)
Для этой цели я хочу получить 100 000 выборок для каждого из n классов на
data_oversampled = []
for data_class_filtered in data:
data_oversampled.append(data_class_filtered.sample(n=20000, replace=True))
где data
является списком специфических для класса DataFrames и len(data)=10
, data.shape=(9448788,97)
. Это работает, как и ожидалось, но, к сожалению, занимает буквально навсегда. Есть ли более эффективный способ сделать то же самое?