Итак, я недавно просматривал курсы смешанной точности и наткнулся на эту ссылку ,
Еще одна ссылка, подтверждающая, что приведенная выше информация подходит для Nvidia
Из раздела 2.2,
На практике более высокая производительность достигается, когда размеры A и B кратны 8 . cuDNN v7 и cuBLAS 9 включают в себя некоторые функции, которые вызывают операции с тензорным ядром, по соображениям производительности, которые требуют, чтобы размеры карты входных и выходных объектов были кратны 8
Итак, почему размеры должны быть кратны 8 ?
PS это совершенно новая концепция для меня, просто читать об этом и любопытно, почему это так ..
Спасибо