Я согласен с talonmies относительно его интерпретации этой рекомендации: последовательный доступ к памяти самый быстрый. Совершенно очевидно (для любого разработчика, поддерживающего OpenCL), что последовательный доступ к памяти является самым быстрым, хотя забавно, что NVidia в явном виде объясняет это так.
Ваша интерпретация, хотя и не та, что говорится в этом документе, также верна. Если ваш алгоритм это позволяет, лучше всего загружать куски разумного размера асинхронно, чтобы он мог быстрее начать вычисления, перекрывая вычисления с передачами DMA в / из системной памяти.
Также полезно иметь более одного волнового фронта / деформации, чтобы устройство могло чередовать их, чтобы скрыть задержку памяти. Хорошие графические процессоры сильно оптимизированы, чтобы иметь возможность выполнять это переключение очень быстро, чтобы оставаться занятыми, пока заблокированы в памяти.