Я пытаюсь реализовать модель drqa в тензорном потоке, где я собираюсь предсказать начальную и конечную позицию подстроки ответа.Таким образом, имеется [batch_size, max_time] выход вероятностей, соответствующих контекстных последовательностей.Теперь я хочу применить кросс-энтропийную потерю softmax, но последовательности дополняются нулями.Поэтому я не хочу, чтобы отступы учитывались в потерях.Есть ли совет, как это реализовать?Спасибо.