Состязаются ли FP и целочисленное деление за одни и те же ресурсы пропускной способности на процессорах x86? - PullRequest
4 голосов
/ 17 октября 2019

Мы знаем, что процессоры Intel выполняют целочисленное деление и FP div / sqrt на не полностью конвейеризованном модуле выполнения деления на порту 0. Мы знаем это из вывода IACA , других опубликованных материалов и экспериментального тестирования. ,(например, https://agner.org/optimize/)

Но существуют ли независимые делители для FP и целых чисел (конкурирующие только за диспетчеризацию через порт 0), или действительно, чередование двух рабочих нагрузок, связанных с пропускной способностью делений, увеличивает их стоимость почти линейно,если одно целое, а другое FP?

Это осложняется тем, что процессоры Intel (в отличие от AMD) декодируют целочисленное деление на несколько мопов, например, 10 для div r32 на Skylake.


Процессоры AMD аналогичным образом имеют свои делители на одном порте исполнения, но я не знаю много о них и не могу их протестировать. Целочисленное деление AMD декодирует всего пару мопов (для записи RDX и RAX), а не микрокодирование. Эксперименты на AMD могут быть легче интерпретированы без большого количества летающих мопов, являющихся возможной причиной раздора между int и fp div.


Дальнейшее чтение:

1 Ответ

1 голос
/ 17 октября 2019

Архитектор ЦП Intel Ронак Сингхал упоминает в Твиттере , что Broadwell (и, как следствие, последующие архитектуры до ICL) используют аппаратное обеспечение FP для разделения, но в Ice Lake есть выделенный целочисленный блок деления:

Имейте в виду, что Бродвелл, для которого это тестировалось, выполняет целочисленное деление на делителе FP. В Ледовом озере теперь есть выделенная целочисленная единица деления.

Так что я бы ожидал значительную конкуренцию. Несомненно, многие операции, выполняемые целочисленным делением, являются простыми операциями ALU, не использующими делитель, поэтому я не обязательно ожидаю, что их обратная пропускная способность будет строго кумулятивной, но они определенно будут конкурировать.

Ронак не подразумеваетчто-нибудь о реализации до Broadwell, но, основываясь на аналогичном назначении портов и производительности, восходящей, по крайней мере, к Sandy Bridge, я думаю, мы можем ожидать, что такой же общий доступ сохраняется.

...