В обратном распространении вы выполняете обратный режим автоматического / алгоритмического дифференцирования для функции, которая имеет очень большое количество входов N и только один выход.
В обратном режиме вы вычисляетепроизводные всех входов за один проход по цепочке операций.Это потребует около 3-х оценок функций плюс накладные расходы организации на выполнение обратной цепочки операций, сохранение и доступ к промежуточным результатам.
В режиме пересылки для той же ситуации, которую вы используете для «проверки градиента»«Независимо от того, продвигаете ли вы производные AD или вычисляете разделенные разницы, вам нужно будет рассчитывать каждую производную отдельно.Общая стоимость составляет около 2 * N функциональных оценок.
А так как N большое, 2 * N намного больше, чем 3.