Я использую Tesla C2050, которая имеет вычислительные возможности 2.0 и имеет общую память 48KB
.Но когда я пытаюсь использовать эту разделяемую память, компилятор nvcc
выдает мне следующую ошибку
Entry function '_Z4SAT3PhPdii' uses too much shared data (0x8020 bytes + 0x10 bytes system, 0x4000 max)
Мой SAT1 - наивная реализация алгоритма сканирования, и потому что я оперирую изображениями размера порядка1006 * Я должен использовать double, чтобы вычислить совокупную сумму.Хотя Tesla C2050
не поддерживает double, но он, тем не менее, выполняет задачу, понижая его до значения float.Но для ширины изображения 4096 размер разделяемой памяти оказывается больше 16 КБ, но он находится в пределах 48 КБ.
Может кто-нибудь помочь мне понять, что здесь происходит.Я использую инструментарий CUDA 3.0