Question

Я пытался обучить простой однонаправленный кодер в обратном направлении, используя эту конфигурацию https://github.com/rwth-i6/returnn-experiments/blob/master/2018-asr-attention/librispeech/full-setup-attention/returnn.config после удаления слоев декодера и bw кодера.

Но ни один из моих экспериментов не сходится без предварительной подготовки.Я пробовал с разными темпами обучения и разными факторами сокращения времени.Как упоминалось в [1-й статье] ((* https://arxiv.org/abs/1805.03294) и [2-й статье] (https://openreview.net/forum?id=S1gp9v_jsm), предварительная подготовка делает обучение стабильным, но в моем случае ни одна из моих моделей не сходится без предварительной подготовки.

Можеткто-то предлагает мне любой возможный обходной путь?

Albert · Answer 1 · 01 марта 2019

Из комментариев кажется, что главный вопрос: как заставить его сходиться без предварительной подготовки.

Смысл предварительной подготовки заключался в том, что она делает тренировку более стабильной, и нам нужно меньше настраивать другие гиперпарамы.,Вот почему он не сходится как есть, когда вы просто отключаете предварительную подготовку.Вы должны настроить его гораздо больше.

Что нужно настроить:

инициализация имеет гораздо большее значение
скорость обучения (начальная, фаза прогрева, дальнейшее планирование)
регуляризация (выпадение, L2, сглаживание меток) (возможно, это также требует планирования)

Предварительная подготовка в Returnn

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Предварительная подготовка в Returnn

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы