Предполагается, что это просто другая, лучшая реализация, и, если реализация отличается, вы не должны ожидать идентичных результатов.
В общем, эффективная реализация алгоритма на GPU - это hard и получение максимальной производительности требует архитектурно-специфических реализаций.Поэтому не удивительно, если бы реализация, характерная для графических процессоров Nvidia, имела более высокую производительность по сравнению с обычной реализацией для графических процессоров.Также не удивительно, что Nvidia потратит значительно больше ресурсов на ускорение кода для своих графических процессоров по сравнению с командой, работающей над общей реализацией CNN.
Другая возможность заключается в том, что тип данных, используемый набэкэнд изменился с поплавка с двойной на одинарную или даже половинную точность.Меньшие типы данных означают, что вы можете обрабатывать больше чисел быстрее за счет точности.Для приложений NN это часто приемлемо, потому что нет нужды в том, чтобы конкретный номер был особенно точным для сети, чтобы получить приемлемые результаты.