Правильный ответ, вероятно, "это зависит".
Для чистой сравнительной производительности кода, выполняемого на разных платформах, я обычно считаю трансцендентальные значения, sqrt, mads одной операцией. В такой ситуации ключевой показатель производительности - это время выполнения кода. Сравнение практически невозможно сделать каким-либо другим способом - как бы вы сравнили счетчик «FLOP» аппаратной инструкции для трансцендентного, для выхода на который требуется 25 циклов, с математической библиотекой, сгенерированной строфой инструкций fmad, которая также занимает 25 циклы для завершения? Подсчет инструкций или FLOPs становится бессмысленным в таком случае, поскольку оба выполняли желаемую операцию за одинаковое количество тактов, несмотря на различное кажущееся число FLOP.
С другой стороны, для профилирования и настройки производительности фрагмента кода на данном оборудовании может быть полезен показатель FLOP. В графических процессорах нормально смотреть на количество FLOP или IOP и использование полосы пропускания памяти, чтобы определить, где находится узкое место производительности данного кода. Наличие этих цифр может указать вам на полезную оптимизацию.