В этой статье Эндрю Нг он упомянул для больших наборов данных: «Вы бы в конечном итоге дважды вычисляли прямой проход для каждого примера в своем учебном наборе». Это потому, что нам нужно найти среднее значение функций активации, прежде чем вычислять функцию потерь. Мне интересно через 9 лет, есть ли способ обойти второй проход? Являются ли TensorFlow и PyTorch вторым проходом?
Мой главный вопрос: «Этот второй проход все еще распространен в современном приложении?»