SSE и MMX используют одни и те же регистры, поэтому не имеет значения, какой из двух вы используете (кроме различий MMX и SSE, конечно, полезных)
Лучший вопрос - как SSE реализован на вашем целевом процессоре. У него есть блок SSE на ядро? (возможно) Если это так, то вы могли бы также запустить инструкции SSE в каждом потоке.
Если у него общий модуль SSE между ядрами, то за него будут бороться разные потоки, поэтому при выполнении инструкций SSE в нескольких потоках не будет особой выгоды. (Я не знаю, действительно ли какие-либо процессоры разделяют единицу SSE между потоками, поэтому примите это как гипотетический случай)