Во-первых, вам необходимо учитывать используемое оборудование: производительность устройств с графическим процессором сильно отличается от конструктора к другому.
Во-вторых, это также зависит от рассматриваемых операций: например, сложения могут быть быстрее, чем умножения.
В моем случае я использую только устройства NVIDIA.Для этого типа оборудования: официальная документация объявляет эквивалентную производительность как для 32-разрядных целых чисел, так и для 32-разрядных чисел с плавающей запятой одинарной точности с новой архитектурой (Fermi).Предыдущая архитектура (Tesla) использовалась для обеспечения эквивалентной производительности для 32-разрядных целых чисел и чисел с плавающей запятой, но только при рассмотрении операций добавления и логических операций.
Но, опять же, это может быть неверно в зависимости от используемого устройства и инструкций.