Скорее всего, у вас есть многоядерный процессор, а функции, такие как memset, фактически снижают производительность, когда не используются на одноядерных процессорах. Возможно, что блокировка мьютекса вызывает замедление. Попробуйте выделить память в стеке вместо динамической памяти. Так как это очень большой массив, я бы поэкспериментировал с созданием собственного менеджера памяти и сохранил его сегменты в нескольких потоках (но это была идея, которая у меня появилась после быстрого прочтения статьи). Стандартный способ сделать это - использовать один распределитель памяти на поток. В любом случае я бы посмотрел на что-то еще, кроме memset.
Может быть, следующий атик поможет