Хотя это не вопрос программирования, я постараюсь ответить на него здесь.
Квадратная ошибка, т. Е. «Потеря» вашей нейронной сети, зависит от вашего прогноза нейронной сети иназемная правда.И это выпукло из своего определения.
Причины, по которым вы не получаете низкие потери, могут быть:
Вы не нормализуете свои входные данные.Например, если вы получили в качестве входных данных серию цен на жилье, которая составляет около 500 тыс. К 1 млн, и вы не нормализовали их, ваш прогноз будет представлять собой линейную комбинацию цен, которая примерно того же порядка, топройти через функцию активации.Это может привести к большим потерям.
Вы неправильно инициализируете свои веса и смещения.Как и выше, у вас могут быть большие веса / смещения, которые приводят к большим значениям прогноза.
Вы не выбрали правильную функцию активации.Когда вы выполняете классификацию, ваши метки обычно имеют горячее кодирование, поэтому ваши функции активации должны ограничивать прогноз до [0,1] или аналогичного, поэтому relu не будет подходящим вариантом.Также вы не хотите, чтобы сигмоид активировал проблемы регрессии.
Ваши метки непредсказуемы или имеют слишком много шума.Или, может быть, ваша сеть недостаточно сложна для захвата важных шаблонов, в этом случае вы можете попробовать добавить больше слоев и больше узлов на слой.
Ваша скорость обучения слишком мала, это приводит кмедленная конвергенция.
Это все, что я имею в виду.Возможно, вам нужно больше работы, чтобы выяснить причину вашей проблемы.