говорят, что я хочу загрузить массив short из глобальной памяти в общую память. Я не уверен, как слияние работает здесь. В руководстве по передовому опыту говорится, что на устройстве с вычислительными возможностями 1.0 или 1.1 k-й поток в полусфере должен получать доступ к k-му слову в сегменте, выровненном в 16 раз по размеру элементов, к которым осуществляется доступ.
Если я правильно понимаю, если я разбиваю свои данные на сегменты по 32 байта (16 шортов), идентификатор потока 0, 16, 32 ... должен получить доступ к первому элементу каждого сегмента? я должен рассмотреть выравнивание на 64 байта или выравнивание на 128 байтов также? У меня есть GTS 250, так что я думаю, это важно. Советы приветствуются. спасибо.