модель проверки диктора, обученная с одним набором данных, не работает хорошо с другим набором данных - PullRequest
0 голосов
/ 02 мая 2020

Я совершенно новичок в обработке аудиосигналов, точнее говоря, в отношении проверки громкоговорителей. Я обучил сиамскую сеть, основанную на CNN, для проверки ораторов. Все это тренируется с одним набором данных, в котором для обучения отобрано 720 пар голосовых клипов после VAD и кадрирования. К концу обучения модель достигла точности 85% и 83% для наборов данных обучения и проверки достоверности соответственно. с 1000 парами голосовых клипов 15 незнакомцев в одном наборе данных, модель все еще достигла точности 82%. Однако, когда для теста используется 10000 пар голосовых клипов из 100 незнакомых людей в другом наборе данных, точность модели достигает только 68%.

Я хотел бы отметить, что:

1 . как на этапах обучения, так и на этапе тестирования голосовые клипы из обоих наборов данных являются чистыми и без шума.

2. благодаря визуальной оценке разницы голосовых клипов из разных наборов данных, голосовые клипы из набора данных для обучения обычно имеют более интенсивные амплитуды во временной области, в то время как те, которые образуют набор данных для теста, получили более слабые амплитуды (см. рисунок ниже в качестве подсказки). может быть, из-за этого образцы для обучения и тестирования не соответствуют условию iid (независимое и идентично распределенное)?

enter image description here

Итак, исходя из описанной проблемы выше, есть ли гуру, чтобы помочь мне указать, где проблема? а какая стратегия по ее устранению?

Если бы такая проблема могла быть решена с помощью бесплатного набора данных динамиков с открытым исходным кодом для inte rnet, я бы купил его. В противном случае я бы склонялся к решениям с ограниченным набором данных.

Заранее спасибо, я действительно ценю это!

1 Ответ

0 голосов
/ 05 мая 2020

Разница в уровне амплитуды и SNR значительна. Даже если вы не считаете это "шумными" условиями для человеческого уха, это, вероятно, влияет на производительность модели.

Чтобы компенсировать это, вы можете:

  1. Использовать увеличение данных для создания выборки с различными уровнями SNR для обучения
  2. Используйте нормализацию уровня, чтобы модель не зависела от уровня
...