«Переулок» в этом контексте является элементом SIMD. (Они говорят о векторных исполнительных блоках, , а не суперскалярных ЦП, которые выполняют более одной команды параллельно по «конвейеру» всего ЦП. На практике у вас есть оба)
например. x86 SSE addps xmm0, xmm1
выполняет 4x добавления float32 с одной инструкцией, обрабатывая регистры XMM как 4 полосы 32-битного float.
Он работает на исполнительном блоке SIMD, в котором параллельно установлены 4 FP-сумматора одинарной точности. Этот исполнительный блок передается по конвейеру, обычно с задержкой в 3 или 4 такта и пропускной способностью 1 / такт.
В этом случае ваш учебник говорит о конвейере (ах) внутри одного исполнительного блока. Что касается конвейерной обработки, то она мало чем отличается от операции и от того, будет ли она 4х 32-битной или 2х 64-битной или какой-либо другой. В буферах между этапами конвейера нужно фиксировать определенное количество бит, и защелки на самом деле не заботятся о том, как это интерпретируется.