Я только что предложил какой-то метод обучения модели глубокого обучения, и он сработал!
(с моделью Cifar-100 точность классификации некоторых моделей улучшена с 0,5% до 3%)
Но дело в том ... Я действительно хочу написать какую-то статью, но я не знаю, почему улучшается способность обобщения весовых параметров.
Я только что нарисовал ландшафт потерь (https://github.com/tomgoldstein/loss-landscape) но не было существенной разницы между предложенным W / O-методом и W / it.
Так что мой вопрос, есть ли какие-либо документы, связанные со способностью обобщать мощь глубоких нейронных сетей?как VGG или ResNet?
Я действительно хочу выяснить причину, по которой сеть более хорошо обобщена.
Пожалуйста, дайте мне знать, ребята:)