Хотя GPU DRAM может иметь разную (аппаратную) ширину шины для разных типов графических процессоров, шина всегда состоит из набора разделов, каждый из которых имеет эффективную ширину 32 байта.Транзакция DRAM с точки зрения профилировщика фактически состоит из одной из этих 32-байтовых транзакций, а не транзакции на полной "ширине шины".
Следовательно, (одиночная) 32-байтовая транзакция для L2, если она отсутствует вL2 преобразуется в одну 32-байтовую транзакцию DRAM.Транзакции с более высокой степенью детализации, такие как 64-байтовые или 128-байтовые, преобразуются в необходимое количество 32-байтовых транзакций DRAM.Это можно обнаружить с помощью любого из профилировщиков CUDA.
Эти связанные вопросы здесь и здесь также могут представлять интерес.
Обратите внимание, что«эффективная ширина» 32 байта, как использовано выше, не обязательно означает, что транзакция требует 32-байтового * 8 бит / байт = 256-битный интерфейс.Шины DRAM могут быть «с двойной накачкой» или «с четырьмя накачками», что означает, что транзакция может состоять из нескольких битов, передаваемых на «провод» интерфейса.Поэтому вы найдете GPU, которые имеют только 128-битный (или даже 64-битный) интерфейс с GPU DRAM, но «транзакция» на этих шинах будет по-прежнему состоять из 32 байтов, что потребует передачи нескольких битов(вероятно, в нескольких тактовых циклах шины DRAM) на «провод» интерфейса.