В качестве побочного проекта я хочу реализовать скрытую марковскую модель для моей видеокарты NVidia, чтобы она могла выполняться быстро и с использованием множества ядер.
Я смотрю на алгоритм прямого-обратногои мне было интересно, что я могу сделать здесь параллельно?Например, если вы посмотрите на переднюю часть алгоритма, умножения матриц можно разделить для параллельного выполнения, но можно ли каким-либо образом распараллелить итеративные части алгоритма, которые зависят от предыдущего шага?Есть ли какой-то математический прием, который можно применить здесь?
Спасибо,
mj
http://en.wikipedia.org/wiki/Forward%E2%80%93backward_algorithm#Example