Балансировка данных с массивами - PullRequest
0 голосов
/ 04 июня 2019

Мне нужно исправить несбалансированный набор данных для ML. У меня есть 3 набора данных, numpy массивы, с формами, которые выглядят так:

MNIST pixel values: (45000, 28, 28, 1)
MFCC audio values: (45000, 93, 13)
Matching labels(45000, 1)

Соответствующий набор данных меток содержит значение true, если значения MNIST и MFCC относятся к одной и той же цифре (0-9). Поскольку в наборе совпадающих данных меток всего около 4500 истинных значений, я бы хотел найти способ сбалансировать этот набор данных.

Мы уже пытались использовать пользовательскую функцию потери, но она не работала должным образом. Мы открыты для предложений и хотели бы использовать numpy для изменения самих наборов данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...