Память построена из аппаратного обеспечения (ОЗУ), которое подключено к шинам памяти. Чем шире шина, тем меньше циклов требуется для получения данных. Если бы память была шириной в один байт, вам понадобилось бы четыре цикла, чтобы прочитать одно 32-битное значение. Со временем архитектуры памяти эволюционировали, и в зависимости от класса процессора (встроенный, низкое энергопотребление, высокая производительность и т. Д.) И конструкции кеша память может быть довольно широкой (скажем, 256 бит).
Учитывая очень широкую внутреннюю шину (между ОЗУ или кэш-памятью) и регистры, скажем, в два раза больше ширины регистра, вы можете получить значение за один цикл независимо от выравнивания, если в пути данных есть сдвиг барреля. Стволовые манипуляторы дороги, поэтому они есть не у всех процессоров; без одного в пути потребуется несколько циклов, чтобы выровнять значение.