Желательно разделить потоки поровну на два блока, чтобы максимизировать перекрытие доступа к вычислениям и памяти. Например, если в блоке 256 потоков, они не все вычисляются одновременно, на SM запланировано деформирование 32 потоков. Когда деформация ожидает данные глобальной памяти, запланирован другой деформация. Если у вас небольшой блок потоков, ваш доступ к глобальной памяти будет намного более пенистым.
Кроме того, в вашем примере вы недостаточно используете свой графический процессор. Просто помните, что в GPU есть десятки мультипроцессоров (например, 30 для C1060 Tesla), и блок сопоставляется с мультипроцессором. В вашем случае вы будете использовать только 2 мультипроцессора.