имеет ли смысл создавать дополнительную нейронную сеть для изучения выходной ошибки (прогнозируемой - целевой) основного NN? - PullRequest
0 голосов
/ 15 октября 2019

Я читаю эту бумагу и используемое в ней решение меня смутило. Вместо этого используя обычный MLP для прогнозирования положения, они оптимизируют это с помощью того, что они называли SDANN (исходный дифференциальный ANN), это в основном означает, что они разделили MLP на два MLP, один MLP предназначен для изучения отношения ввода-вывода, которое является тем, что мыобычно это делается, они используют его для обучения модели, вычисляя ошибку и используя обратное распространение для обновления весов (здесь нет ничего необычного). Другой MLP используется для изучения отношения входной ошибки, т.е. целью второго MLP является ошибкасозданный первым MLP при прогнозировании выходных данных, а затем в конце прогнозируемое значение всей модели является суммой между прогнозируемым значением первого MLP и прогнозируемым значением второго MLP, что очень запутанно.

Я приведу выходные данные двух MLP в виде уравнения, чтобы было легче понять, что они сделали:

  • для первого MLP: ошибка рассчитывается следующим образом: e_mlp1= цель (реальное значение у) - прогнозируемая позициязначение MLP1 (y_hat) .

  • для второго MLP: ошибка вычисляется следующим образом: e_mlp2 = e_mlp1 (теперь это реальное значение y)- прогнозируемое значение MLP2 (y_hat)

, поэтому в основном они позволяют второму MLP учиться прогнозировать значение ошибки, которое будет получено из MLP1, и затем окончательное выходное прогнозирование. всей NN будет суммирование прогнозируемой позиции MLP1 и прогнозируемой величины из MLP2. Я не могу понять, как это может быть полезным! и почему это будет суммирование, а не вычитание, поскольку вторая Сеть учится прогнозировать значение ошибки, создаваемой первым NN.

, что также более запутанно, для идеального предсказания у нас было бы значение ошибки 0, так зачем беспокоиться и создавать дополнительный NN, который будет принимать те же входные данные и научиться прогнозировать выходное значение, равное 0. Возможноможет кто-то здесь прояснить эти понятия для меня. Я также не вижу ни одного варианта использования дополнительного NN для изучения отношения ввода / ошибки. Если кто-то использовал это раньше, было бы полезно дать мне несколько советов.

...