Нашли как минимум две причины:
Во-первых, базовая реализация не совсем совпадает с оригинальной документацией. Я не знаю, почему они это делают, нужно объяснение.
Во-вторых, градиенты, используемые при обновлении весов, представляют собой пакетный градиент, что означает обновление весов ps один раз для партии (очень тривиально в современной распределенной системе, но не подходит для сценария в оригинальной статье), в сводке он не использует данные обучения для записи. Лично второй является ключевым моментом.