У меня особая проблема.
У меня есть некоторый исследовательский код, который я разработал для моего macbook с использованием CUDA 4.1, особенно с использованием batchedgemm
.Теперь я должен запустить его на кластере графических процессоров, которые я одолжил в другом учреждении.
Моя проблема в том, что в кластере установлена только CUDA 4.0, и они не хотят быстро обновляться.
Кто-нибудь знает, могу ли я где-нибудь взять исходный код batchedgemm и скомпилировать его для работы под 4.0?
Я написал свое собственное ядро для выполнения пакетных умножений, но оно выполняет порядокпримерно на 10 медленнее библиотечного - я бы хотел стоять на плечах великих людей, а не на их пальцах.