Может быть, в зависимости от шаблонов доступа в коде ядра. Использование буфера общей памяти для «вывода» вывода может быть полезным способом обеспечения слияния записей, когда наивная запись не будет объединена. Это было очень важно для производительности в первых двух поколениях совместимого с CUDA оборудования (G80 / G90). В более новом оборудовании аргументы за это гораздо менее убедительны. Карты Fermi имеют довольно эффективную схему кэширования L1 и L2, которая (в разумных пределах) может приблизиться к тому, что раньше было достижимо только при использовании общей памяти без какого-либо дополнительного кода.
Нет общего ответа на этот вопрос, потому что он зависит от многих особенностей того, что делает данный код, и от того, на каком целевом оборудовании он должен хорошо работать.