Compute Workload Analysis отображает использование различных вычислительных конвейеров. Я знаю, что в современном графическом процессоре целочисленные конвейеры и конвейеры с плавающей запятой являются различными аппаратными единицами и могут выполняться параллельно. Однако не очень понятно, какой конвейер представляет какой аппаратный блок для других конвейеров. Я также не смог найти в Интернете никакой документации о сокращениях и интерпретациях трубопроводов.
Мои вопросы:
1) Каковы полные имена ADU, CBU, TEX, XU ? Как они сопоставляются с аппаратным обеспечением?
2) Какой из конвейеров использует один и тот же аппаратный модуль (например, FP16, FMA, FP64 использует модуль с плавающей запятой)?
3) Планировщик деформации в современный графический процессор может планировать 2 инструкции за цикл (используя разные конвейеры). Какие конвейеры можно использовать одновременно (например, FMA-ALU, FMA-SFU, ALU-Tensor и др. c.)?
Ps: я добавляю скриншот для тех, кто не знаком с Nsight Compute.