Более новые процессоры ARM включают инструкции PLD и PLI.
Я пишу узкие внутренние циклы (в C ++), которые имеют непоследовательный шаблон доступа к памяти, но шаблон, который, естественно, мой код полностью понимает. Я ожидал бы значительного ускорения, если бы мог предварительно выбирать следующую локацию при обработке текущей области памяти, и я ожидал бы, что это будет достаточно быстро, чтобы попытаться оправдать эксперимент!
Я использую новые дорогие компиляторы от ARM, и кажется, что они нигде не включают инструкции PLD, не говоря уже об этом конкретном цикле, который меня волнует.
Как я могу включить явные инструкции предварительной выборки в мой код C ++?