Я рассмотрел серию примеров машинного обучения, в которых для классификации документов используются RNN (многие-к-одному). В большинстве учебных пособий используется выход RNN последнего временного шага, т. Е. Подается в один или несколько плотных слоев для сопоставления его с числом классов (например, [1] , [2 ] ).
Однако я также натолкнулся на несколько примеров, где вместо последнего вывода используется среднее значение выходов за все временные шаги (среднее объединение ?, например, [3] ). Размеры этого усредненного результата, конечно, такие же, как и для последнего результата. Таким образом, в вычислительном отношении оба подхода работают одинаково.
Теперь мои вопросы: какова интуиция между двумя разными подходами? Из-за рекурсивного характера последний вывод также отражает вывод предыдущих временных шагов. Так почему же идея усреднения выходов RNN по всем временным шагам. Когда использовать что?