Это экран оригинальной бумаги: экран бумаги .Я понимаю, что смысл статьи в том, что когда значение точечного произведения велико, градиент softmax будет очень малым.Однако я попытался вычислить градиент softmax с потерей перекрестной энтропии и обнаружил, что градиент softmax не имеет прямого отношения к значению, переданному в softmax.Даже если одно значение велико, оно может получить большой градиент, когда другие значения велики.(извините за то, что я не знаю, как изложить здесь процесс расчета)