Мне нужно исправить несбалансированный набор данных для ML. У меня есть 3 набора данных, numpy массивы, с формами, которые выглядят так:
MNIST pixel values: (45000, 28, 28, 1)
MFCC audio values: (45000, 93, 13)
Matching labels(45000, 1)
Соответствующий набор данных меток содержит значение true, если значения MNIST и MFCC относятся к одной и той же цифре (0-9). Поскольку в наборе совпадающих данных меток всего около 4500 истинных значений, я бы хотел найти способ сбалансировать этот набор данных.
Мы уже пытались использовать пользовательскую функцию потери, но она не работала должным образом. Мы открыты для предложений и хотели бы использовать numpy для изменения самих наборов данных.