Я пытаюсь перенести некоторые коды процессора в CUDA. Моя карта CUDA основана на архитектуре Fermi, и поэтому я могу использовать функцию malloc () в устройстве для динамического выделения памяти и не нужно много менять исходные коды. (Функция malloc () вызывается много раз в моих кодах.) Мой вопрос заключается в том, достаточно ли эффективна эта функция malloc, или мы должны избегать ее использования, если это возможно. Я не сильно ускоряю выполнение моих кодов на CUDA, и я сомневаюсь, что это вызвано использованием функции malloc ().
Пожалуйста, дайте мне знать, если у вас есть предложения или комментарии. Я ценю вашу помощь.