Я не нашел никаких сведений о максимальном размере источника CUDA PTX или скорости его выполнения.
Идея состоит в том, чтобы программа перезаписывала большой блок кода сборки PTX, который содержит набор данных для очень быстрого доступа к регистру и не извлекает данные из глобальной памяти во время своих функций. Таким образом, ваш набор данных становится предустановленным в исходный код PTX.