Как обучить модели глубокого обучения, если один класс имеет большие данные по сравнению с другими классами - PullRequest
0 голосов
/ 24 мая 2019

Я использую кераты для проекта преобразования текста в речь, и для этого проекта у меня есть почти 1000 помеченных данных.
, поскольку длина звуков в наборе данных различна, я изменил их размер до максимальной длины.
поэтому большинство моих данных сейчас выглядит примерно так: (это один образец набора данных)

this is the image

, как вы видите, более половины из них пусто (ноль)
Теперь моя проблема в том, что, поскольку у более половины данных есть один класс, он больше подходит этому классу, а мой прогноз - просто пустая строка.

как я могу обрабатывать такие данные?

1 Ответ

1 голос
/ 24 мая 2019

У вас есть другой способ справиться с этим:

  • Демонстрация основного класса: удалите случайную выборку этого класса, чтобы сделать два класса равными

  • Переоценка второстепенного класса: Вы можете попробовать продублировать какой-то образец этого класса, но это может привести к переобучению

  • Излишняя выборка с использованием синтетических данных: узнайте, существует ли способ создания совершенно новых примеров с использованием существующих распределений данных

...