Вы можете начать с OpenCV метода forEach в классе Mat. Он использует одну из нескольких параллельных структур для многопоточности.
Если это должно быть еще быстрее, обратитесь к памяти напрямую и вычислите порог для нескольких пикселей с инструкциями SIMD одновременно.
Вы также можно использовать графические процессоры (Cuda / OpenCL).