Есть ли какое-нибудь краткое руководство для программистов по написанию DSP-ускоренных приложений для TMS320C64x?
У меня есть программа с пользовательским алгоритмом (не fft или usial filtering), и я хочу ускорить его, используя сопроцессор multi-DSP. Итак, как мне изменить исходный код, чтобы перенести вычисления с основного ЦП на ЦСП? Какие ограничения существуют для кода, выполняющего DSP?
У меня есть некоторый опыт работы с CUDA. В CUDA я должен отмечать каждую функцию как хост, устройство или точку входа для устройства (ядра). Есть также функции для запуска ядер и для загрузки / выгрузки данных в / из GPU. Существуют также некоторые ограничения для кода устройства, описанные в Справочном руководстве CUDA. Надеюсь, есть аналогичный интерфейс и документация для DSP.