Алекс ответ правильный.Время, затрачиваемое на упаковку, минимально.Обратите внимание, что PyCUDA имеет несколько хороших конструкций метапрограммирования для генерации ядер, которые могут быть полезны.
Если все, что вы делаете, это добавление или вычитание элементов изображения, вам, вероятно, вообще не следует использовать CUDA для этого.Время, необходимое для передачи данных по шине PCI-E туда и обратно, уменьшит объем экономии, которую вы получаете от параллелизма.
Каждый раз, когда вы имеете дело с CUDA, полезно подумать об отношении CGMA (отношение вычислений к глобальному доступу к памяти).Ваше сложение / вычитание - только 1 операция с плавающей запятой для 2 обращений к памяти (1 чтение и 1 запись).Это в конечном итоге очень паршиво с точки зрения CUDA.