Исправление ошибки вывода из модели seq2seq - PullRequest
0 голосов
/ 02 июня 2018

Я хочу спросить вас, как мы можем эффективно переобучить обученную модель seq2seq для удаления / смягчения определенной наблюдаемой ошибки вывода.Я собираюсь привести пример о синтезе речи, но любая идея из разных областей, таких как машинный перевод и распознавание речи, с использованием модели seq2seq, будет оценена.

Я изучил основы seq2seq с моделью внимания,специально для синтеза речи, таких как Такотрон-2 .Использование распределенной хорошо обученной модели показало мне, насколько естественно наш компьютер может общаться с моделью seq2seq (сквозная связь) (вы можете прослушать некоторые аудиосэмплы здесь ).Но, тем не менее, модель не может правильно прочитать некоторые слова, например, она не может прочитать «повиноваться [ābā]» несколькими способами, такими как [əˈbī] и [əˈbē].

Причина очевидна, потому что слово "obey "выглядит слишком мало, только три раза из 225 715 слов в нашем наборе данных ( LJ Speech ), и модели не повезло.

Итак, как мы можем переобучитьмодель для преодоления ошибки?Добавление дополнительных аудиоклипов, содержащих произношение «повинуются», звучит нецелесообразно, но повторное использование трех аудиоклипов может привести к перегрузке.Кроме того, я полагаю, что мы используем хорошо обученную модель, и «просто тренировать больше» не является эффективным решением.

Теперь, это один из недостатков модели seq2seq, о которой мало говорится.Модель успешно упростила конвейеры традиционных моделей, например, для синтеза речи, она заменила акустическую модель, интерфейс анализа текста и т. Д. Единой нейронной сетью.Но мы вообще потеряли управляемость нашей модели.Невозможно заставить систему читать определенным образом.

Опять же, если вы используете модель seq2seq в любом поле и получаете нежелательный вывод, как вы это исправите?Есть ли научный обходной путь к этой проблеме или, может быть, передовой механизм нейронной сети, обеспечивающий большую управляемость в модели seq2seq?

Спасибо.

1 Ответ

0 голосов
/ 21 июня 2018

Я нашел ответ на свой вопрос в разделе 3.2 газета (Deep Voice 3).Таким образом, они обучили как фонемную модель, так и символьную модель, используя в основном фонемы, за исключением того, что символьная модель используется, если слова не могут быть преобразованы в их фонемные представления.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...