Я понимаю, что графические процессоры Fermi поддерживают предварительную выборку в кэш L1 или L2. Однако в справочном руководстве CUDA я ничего не могу найти по этому поводу.
Сборы CUDA позволяют моему коду ядра предварительно выбирать конкретные данные для определенного уровня кэша?