В соответствии с моим объяснением Ферми (sm_2x), на старом оборудовании доступ к памяти осуществляется за полвертыва.
В первом цикле (чтение) вся деформация считывает с того же адреса в локальную переменную. Это приводит к «трансляции». Поскольку Fermi имеет кэш L1, либо будет загружена одна строка кэша, либо данные будут извлечены непосредственно из кэша (для последующих итераций). Другими словами, нет сериализации.
Во втором цикле (записи), какой поток выигрывает, не определен - как и любая многопоточная модель программирования, если несколько потоков записывают в одно и то же место, программист отвечает за понимание условий гонки. Вы не можете контролировать, какая деформация в блоке будет выполняться последней, а также не можете контролировать, какой поток в последней деформации завершит запись, поэтому вы не можете предсказать, каким будет окончательное значение.