Развертывание цикла в целом не повлияет на кэш данных L1, только на кэш команд. Так как эти два отличаются в большинстве архитектур.
Однако если у вас многоуровневая архитектура кеша, кеш уровня 2 в большинстве архитектур служит кешем уровня 2 как для кеша команд, так и для кеша данных. Таким образом, если вы развернете слишком много инструкций, вы можете повлиять на кэш L2, что существенно снизит производительность L2 как кеша данных.
Вот изображение архитектуры ядра i7, которая имеет отдельные icache и dcache, но кэш L2 одинаков для обоих.
http://upload.wikimedia.org/wikipedia/commons/6/64/Intel_Nehalem_arch.svg