Вот график тензорного потока , так как мы можем видеть, что одним из входов кросс-энтропии является выход логит-слоя, а не вывод softmax на графике.
Я искал об этом и обнаружил, что «ПРЕДУПРЕЖДЕНИЕ: этот оператор ожидает немасштабированные логиты, поскольку он выполняет softmax для логитов внутри системы для эффективности. Не вызывайте эту операцию с выводом softmax, так как он даст неверные результаты».на этой веб-странице .
Мой вопрос: как получить параметры softmax, если этот softmax не обучен?