Модель с несколькими потерями: одна из потерь растет со временем? - PullRequest
0 голосов
/ 15 февраля 2020

Я намеревался переписать следующую модель в Keras, чтобы перенести ее в TF 2.0:

https://github.com/Kyubyong/dc_tts

И вот моя попытка переписать модель в Keras. Я скопирую текст из номера, который я разместил на GH:

Привет, я попытался переписать этот репозиторий в Keras, чтобы перенести его в TF 2.0. Короче, мне нужна помощь в плане тренировочного процесса. Моя потеря внимания со временем возрастает, что отражается на качестве продукции Mel. На выходе линия внимания разбросана.

Вот репо: github. com / dimasikson / dc_tts_keras

В модели Text2Mel моя потеря внимания увеличивается после 4-7 эпох, в зависимости от гиперпарам.

Теперь размер партии в моей модели равен 8 из-за моего GPU не может вместить 32 в одном go, но я попробовал оригинальную модель на B = 4, и это было совершенно нормально после 20 эпох. Я сомневаюсь, что это связано с размером партии.

Здесь была потеря внимания (скользящее среднее) с «ванильными» гиперпарамами, или точно так же, как в исходном репо (за исключением размера партии, как упоминалось ранее). 1638 шагов в эпоху, 15 эпох, 2500 шаговых двусторонних скользящих средних.

1-я модель: потеря внимания

Вот после того, как я рандомизировал порядок партии между эпохами И увеличил затухание LR в файле 'utils'. 8 эпох, одно и то же скользящее среднее.

2-я модель: потеря внимания

Увеличение затухания приводит к тому, что эффект появляется позже на тренировке, но все же довольно детерминистически возрастает.

В общей схеме общая потеря уменьшается просто отлично, но эта потеря внимания как бы портит выход. Вот общие потери после 8 эпох (2-я модель):

2-я модель: общие потери

Каковы результаты такого выхода (2-я модель, 8 эпох) , Ниже представлен график внимания на этапе синтеза. Преднамеренно отключено моно внимание ради визуального.

модель 2: вывод графика внимания

А ниже приведены эпохи 3,4,5 от первой модели, это примерно то, где он облажается.

Эпоха 3: модель 1: вывод графика внимания

Эпоха 4: модель 1: вывод графика внимания

Эпоха 5: модель 1: вывод графика внимания

Что я хотел бы понять:

  • Копировал ли я модель 1 в 1?
  • Что я могу попытаться исправить?

Заранее спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...