Без реальных измерений невозможно быть уверенным в оптимальном размере блока для данного чипа.Например, если вы делаете 2D-текстурирование, блок 16x4 работает очень хорошо.В вашем случае, возможно, что 512 кратно числу разделов памяти в чипе.(На GeForce 8800 GTX с 6 разделами памяти 384 был действительно хорошим размером блока для ядер с ограниченной пропускной способностью).
Занятость - это лишь одно из многих факторов, влияющих на производительность - больше потоков не всегда лучше- для рабочих нагрузок, которые могут использовать регистры (вместо общей памяти) для хранения промежуточных результатов, блоки, которые используют больше регистров и меньше потоков, работают лучше всего.
Извините, я не могу дать более точный ответ, но этосложный вопрос.