пример softmax
Я использую keras с tenorflow для создания машины перевода. Моя текущая модель - word2word с вниманием и принуждением учителя.
Я не знаю, заметили ли вы или знаете причину мягкого максимума, который модель «слово2word» «плюет» имеет в каждой позиции матрицы, элементы, кажется, уже знают о следующем результате.
пример:
Прогноз: я люблю кофе
Анализируя первый вектор softmax, игнорируя первое argmax, второе наибольшее значение вероятности выбора для первого слова - например, «I» - мы понимаем, что это именно то значение, которое будет предсказано с помощью argmax следующего вектора в случае, когда «любовь» и третья позиция также кажутся просто наибольшей вероятностью третьего вектора, это происходит до конца перевода.
Я не знаю, могли бы вы понять.