У меня есть пара вопросов:
- В модели seq to seq с переменной длиной ввода, если вы не используете маску внимания, RNN может в итоге вычислить значение скрытого состояния для дополненногоэлемент? Таким образом, это означает, что маска внимания обязательна, иначе мой вывод будет неправильным?
- Как быть с метками различной длины, скажем, я добавил для передачи в пакетном режиме. Теперь я не хочу, чтобы мои мягкие элементы влияли на мою потерю, так как я могу игнорировать это?