Question

У меня большая проблема с несбалансированной классификацией, и я хочу решить эту проблему путем избыточной выборки младших классов. (N (класс 1) = 8,5 млн., N (класс n) = 3000)

Для этой цели я хочу получить 100 000 выборок для каждого из n классов на

data_oversampled = []
for data_class_filtered in data:
    data_oversampled.append(data_class_filtered.sample(n=20000, replace=True))

где data является списком специфических для класса DataFrames и len(data)=10, data.shape=(9448788,97)

. Это работает, как и ожидалось, но, к сожалению, занимает буквально навсегда. Есть ли более эффективный способ сделать то же самое?

Есть ли более эффективный способ передискретизации данных, чем random.sample ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Есть ли более эффективный способ передискретизации данных, чем random.sample ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы