Графические процессоры имеют большую архитектуру «ядра комплекса», называемую «SM» или «CU», с десятками конвейеров. Не очень похожи на «SIMD» ЦП, они могут выдавать команды параллельно этим конвейерам в «однопоточном» коде ядра.
Вы подсчитали «ядра» в ЦП, а не в конвейерах SIMD (что в 4–16 раз больше количества ядер), поэтому было бы неправильно подсчитывать SM-единицы Nvidia или CU Amd или Slice. подмножество Intel et c.
Tesla C2075 имеет 14 модулей SM, поэтому вы можете добавить 14 для каждого графического процессора (32 + 14 + 14).
Если вы также использовали код SIMDified для процессора, то это не будет неправильно считать каждый конвейер графического процессора, который в 32–192 раза превышает количество SM / CU (например, 448 на ваш графический процессор) (32*SIMD_WIDTH + 448 + 448
).
По крайней мере, так я бы вычислял «ядро» эффективность "и" эффективность трубопровода ". Если передача данных в / из графического процессора не является узким местом, эффективность не должна сильно снижаться после добавления графических процессоров.