Модель от последовательности к последовательности не тренируется - PullRequest
0 голосов
/ 19 января 2020

Я работаю над последовательностью для создания модели чатбота на основе учебника Tensorflow NMT для проекта. У меня есть база данных около 15 миллионов ответов и около 3 миллионов отдельных слов. Это модель кодера-декодера с 2 повторяющимися уровнями и механизмом внимания Богданау (уровни кодера являются двунаправленными). Я построил эту модель для того, чтобы можно было легко изменять все параметры, это только то, что я пробовал до сих пор. Проблема в том, что за 30 часов обучения модель ничего не выучила. Потеря изначально уменьшалась, но после первой эпохи ничего существенного не произошло.

Я понятия не имею, заключается ли проблема в моей модели архитектуры или в нехватке времени и вычислительной мощности (я знаю, что эти модели очень трудно обучать).

При тестировании с Словарным запасом в 1000 - 5000 слов максимальная длина последовательности 10-15 и 1000 ответов в качестве обучающей базы данных в конечном итоге сводится к глобальному минимуму. Это заставляет меня поверить, что в архитектуре модели нет ничего принципиально неправильного, но я все еще не уверен.

Я использую Google Bigquery для хранения учебной базы данных. Я знаю, что предоставление другим людям доступа к нему противоречит лучшим практикам, но я все поддержал. Проект находится на этом репозитории Github и содержит записную книжку Colab для тестирования.

Как студент, у меня нет больших денег, чтобы тратить на облачные вычисления, поэтому я стараюсь использовать Google Colab исследует, но есть некоторые очевидные ограничения.

Кто-нибудь имеет какие-либо идеи о том, что может быть не так, или знает какие-либо относительно дешевые платформы облачных вычислений? Я действительно хочу завершить этот проект, чтобы участвовать в конкурсе, но сейчас я застрял ... Возможно ли обучить такую ​​сеть менее чем за неделю?

Заранее спасибо!

...