Не стесняйтесь сменить заголовок (или предложить предложение), если это будет лучше.
Я нахожусь на ARM Cortex M4 и мне нужно написать более быструю копию копии в сборке.
В общем, какие аспекты архитектуры необходимо учитывать при написании оптимизированных memcopy в сборке?
Например: мой коллега использует ARMCortex M7, который имеет двойную проблему, поэтому он показал мне, как его сборка memcopy была написана, чтобы учесть это.