Question

Я относительно новичок в ML / DL и пытаюсь улучшить свои навыки, создав модель, которая изучает набор данных MNIST без TF или керас. У меня есть 784 входных узла, 2 скрытых слоя по 16 нейронов в каждом и 10 выходных узлов, соответствующих числу, которое, по мнению модели, является данной картиной. Sigmoid - единственная активирующая функция, которую я использовал (я знаю, что это неоптимально). Я обучил 200 тыс. Эпох чистого SGD (размер партии 1 изображение) и строил график затрат каждые 10 эпох. Мой вопрос таков: как объяснить это странное поведение стоимости с течением времени?

information_interchange · Answer 1 · 23 мая 2019

Никто не может быть уверен в том, что именно происходит (тем более, что вы не предоставили никакого кода), но запуск в течение 200 тыс. Эпох с размером пакета 1 сразу выделяется для меня как красный флаг.Если вы действительно используете размер партии 1, то градиентный спуск будет довольно шумным и с большой дисперсией.200 тыс. Проходов через все тренировочные данные также кажется, что вы заставляете свою модель переоснаститься (для справки, для большинства результатов обычно достаточно нескольких сотен эпох или меньше)

Странное поведение стоимости с течением времени с SGD

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Странное поведение стоимости с течением времени с SGD

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы