Прежде всего, я хотел бы отметить, что это может быть хорошей задачей для CUDA.
При этом маловероятно, что несколько копий одного массива будут способствовать повышению производительности.Во всяком случае это ухудшит производительность.Если они доступны только для чтения, тогда нет необходимости в мьютексах, поэтому они все равно могут читать из одного и того же блока памяти в одно и то же время.Вдобавок ко всему, если каждый поток получает свою собственную копию, вам придется делать довольно медленную копию.
Наконец, и это, пожалуй, самая важная, но тонкая часть: если у вас есть один блок памяти, тогда ЦПУ может скопировать его в свой кеш, что значительно повысит производительность.