Я пытаюсь работать в системе, в которой качество записанного предложения оценивается компьютером. Эта система работает в трех режимах:
- Когда человек записывает предложение с использованием микрофона и микшера.
- Когда пользователь записывается через стационарный телефон.
- Когда пользователь записывает по мобильному телефону.
Я замечаю, что оценки, которые я получаю из записей с использованием вышеуказанных 3 источников, имеют следующий порядок: Mic_score> Landline_score> mobile_score
Вполне вероятно, что приведенный выше порядок обусловлен влиянием кодеков и характеристик канала. Мой вопрос:
- Что можно сделать, чтобы компенсировать артефакты, введенные в канал / кодек, для получения согласованных оценок по каналам? Если какая-то обратная фильтрация, то, пожалуйста, предоставьте несколько ссылок, с которых я мог бы начать.
- Как определить, на каком канале была записана входная речь? Использовать HMM?
Edit 1
: Я не вправе вдаваться в детали критериев. Текущие оценки, которые я получаю от микрофона, стационарного телефона и мобильного телефона (для одного и того же сказанного предложения (и одинаково произносятся в трех средах), примерно 80, 66, 41. Эта разница может быть из-за эффектов канала. Если контент и способ выражения предложения тот же, тогда я ищу алгоритм, который normalizes
баллов (они не обязательно должны быть одинаковыми, но они должны быть близки).