Я думаю, что ядро memset128 выполняет большую часть работы, а ядро memset32_post очищает остаток, так как вы использовали размер, не кратный 128.
Не о чем беспокоиться, просто я пытаюсь реализовать memset наиболее эффективным способом, хотя я бы старался избегать memset во внутреннем цикле (на любом процессоре). Если вы действительно беспокоитесь об этом, вы можете перерасходовать.