Есть ли более эффективный способ передискретизации данных, чем random.sample ()? - PullRequest
0 голосов
/ 10 октября 2019

У меня большая проблема с несбалансированной классификацией, и я хочу решить эту проблему путем избыточной выборки младших классов. (N (класс 1) = 8,5 млн., N (класс n) = 3000)

Для этой цели я хочу получить 100 000 выборок для каждого из n классов на

data_oversampled = []
for data_class_filtered in data:
    data_oversampled.append(data_class_filtered.sample(n=20000, replace=True))

где data является списком специфических для класса DataFrames и len(data)=10, data.shape=(9448788,97)

. Это работает, как и ожидалось, но, к сожалению, занимает буквально навсегда. Есть ли более эффективный способ сделать то же самое?

...