В статье Агнера Фога «Оптимизация подпрограмм на языке ассемблера - раздел 11.8 Инструкции по управлению кэшем», - говорит он: «Операции записи в память обходятся дороже, чем чтение, когда в кэше с обратной записью происходят пропадания. Необходимо прочитать всю строку кэша. из памяти, модифицированные и записанные обратно в случае пропадания кэша. Этого можно избежать, используя не временные инструкции записи MOVNTI, MOVNTQ, MOVNTDQ, MOVNTPD, MOVNTPS . Эти инструкции следует использовать при записи в область памяти, которая вряд ли будет кэширована и вряд ли будет считана из нее еще до того, как будет удалена потенциальная строка кэша. Как правило, рекомендуется рекомендовать использовать не временные записи только при записи блока памяти, который больше половины размера самого большого кеша. "
Из "Руководства разработчика программного обеспечения для архитектуры Intel 64 и IA-32, объединенные тома, октябрь 2019 г." - "Эти инструкции для временных хранилищ SSE и SSE2 сводят к минимуму загрязнение кэша, обрабатывая доступ к памяти как объединение при записи (W C) тип. Если программа указывает невременное хранилище с помощью одной из этих инструкций и типом памяти области назначения является запись с обратной записью (WB), запись с помощью (WT) или объединение записи (W *) 1015 *), процессор будет делать следующее ... "
Я думал, что объединяющая запись память встречается только в графических картах, но не в кучной памяти общего назначения - и, соответственно, инструкции, перечисленные выше, будут полезны только в таких случаях. Если это правда, почему Агнер Фог рекомендует эти инструкции? Руководство Intel, похоже, предполагает, что оно полезно только с памятью WB, WT или W C, но затем говорят, что доступ к памяти будет рассматриваться как W C.
Если эти инструкции действительно можно использовать в обычной записи в кучную память, есть ли какие-либо ограничения? Как выделить память, сочетающую запись?