Если вы запустите образец пропускной способности устройства CUDA, вы получите эталон скорости загрузки.
Если предположить, что трехканальная память ОЗУ DDR3 1600 МГц, вы получите пропускную способность памяти около 38 ГБ / с.
Возьмите типичную карту среднего уровня, такую как GTX460, и вы получите что-то вроде пропускной способности памяти 84 ГБ / с. Обратите внимание, что вам нужно будет прыгнуть через шину, что-то вроде теоретического 8 ГБ / с, ~ 5,5 на практике для канала PCI-E2.0 x16.
Обратите внимание, что ответ Котлински не совсем правильный. Вы можете выполнить сравнение параллельно, а затем выполнить параллельное уменьшение, и в этом случае большая пропускная способность устройства с графическим процессором может в конечном итоге выиграть.
Я думаю, что ответ, вероятно, будет: потеря загрузки в GPU и сравнение один раз. Возможный выигрыш, если сравнение производится несколько раз (например, сохраняется и изменяется на графическом процессоре).
Edit:
Сравнение нескольких раз относится к случаям, когда вы модифицировали изображения в памяти графического процессора на месте. Таким образом, это заслуживает другого сравнения (кеширование не обрезает его), не влечет за собой наказание другой копии через шину.