Значение сбалансированных наборов данных - PullRequest
0 голосов
/ 10 апреля 2020

Я исследую некоторую информацию о классификации аудио, более конкретно: сбалансированные и несбалансированные наборы аудиоданных. Итак, если предположить, что здесь у меня есть две папки двух классов наборов данных: звуки автомобилей и звуки мотоциклов, папка классов автомобилей имеет 1000 .wav, а папка мотоциклов - 1000 .wav. Означает ли это, что у меня есть сбалансированные наборы данных только потому, что числа равны? Что, если общий размер WAV-файлов в классе автомобиля составляет 500 МБ, а другой - 200 МБ? Хорошо, если они оба имеют одинаковый размер папки, но что, если продолжительность отдельных аудиоклипов автомобильных записей больше, чем у других в классе мотоциклов?

1 Ответ

1 голос
/ 10 апреля 2020

Сбалансированный набор данных означает одно и то же число из обоих классов. Часто более короткие данные дополняются, чтобы иметь одинаковую длину для соответствия классификаторам. У меня нет звукового фона, поэтому я не могу сказать, является ли заполнение нормой, но если в вашей сети есть какой-то способ согласования входных длин различной длины, который не требует создания большего количества входов, баланс будет равен 1000-1000.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...