Вопрос На следующей диаграмме показаны значения потерь в зависимости от эпох во время обучения. Если бы вам пришлось повторить эксперимент, какое значение вы бы использовали для maxiter и почему?
При повторном запуске эксперимента вы будете использовать большее количество эпох (max_iter). Мы видим, что потери сводятся к минимуму, но не полностью сходятся. Трудно судить по графику, но я бы попробовал 100 эпох и повторил бы по результатам.