Может ли кто-нибудь объяснить значение максимального пула слоя после слоя lstm в случае анализа настроений?
Как это улучшает кодирование целого предложения в случае только рассмотрения вывода последнего временного шага по сравнению с выводом максимального пула?