Я работаю над моделью, которая изучает некоторые вложения с использованием соответствующего слоя Keras, и со мной произошло что-то очень странное, и мне стало интересно, случалось ли это с кем-то еще:
если я тренирую свою сеть с помощью Nadam или RMSprop, я получаю очень хорошие результаты, несколько эпох.
, если я тренирую свою сеть с Adadelta, и те же параметры обучения (эпохи, размер пакета), Я получаю что-то настолько плохое, что это даже не имеет смысла. Действительно, действительно ужасно. Ближайшие соседи совершенно случайны.
У меня есть некоторый опыт в обучении нейронных сетей, и я никогда не сталкивался с чем-то подобным, и мне интересно, что теоретически может быть причиной такая разница в результатах. Я понимаю, что разные оптимизаторы не сходятся с одинаковой скоростью, но получают что-то , что отличается? Это даже не в том же поле. Здесь может быть что-то более глубокое, но я не вижу, что. С тобой что-нибудь подобное случалось? В чем может быть причина таких расхождений?