Для модели sequence_to_sequence, либо системы перевода, либо разговора с вопросом / ответом, могут быть разные выходные последовательности, которые все являются правильными.
Я думал, что декодер использует sequence_loss, который является взвешенной функцией перекрестной энтропиисо временем:
sequence_loss(
logits,
targets,
weights,
average_across_timesteps=True,
average_across_batch=True,
softmax_loss_function=None,
name=None
)
Итак, когда мы обучаем декодер, какие должны быть правильные цели? Если мы хотим разрешить небольшие вариации языкового перевода или ответа на вопрос? Спасибо!