Я относительно новичок в ML / DL и пытаюсь улучшить свои навыки, создав модель, которая изучает набор данных MNIST без TF или керас. У меня есть 784 входных узла, 2 скрытых слоя по 16 нейронов в каждом и 10 выходных узлов, соответствующих числу, которое, по мнению модели, является данной картиной. Sigmoid - единственная активирующая функция, которую я использовал (я знаю, что это неоптимально). Я обучил 200 тыс. Эпох чистого SGD (размер партии 1 изображение) и строил график затрат каждые 10 эпох. Мой вопрос таков: как объяснить это странное поведение стоимости с течением времени?