Измеримое влияние на производительность будет оказывать влияние на части процессора, связанные с процессором. Например, если ваши данные CUDA требуют предварительной обработки перед достижением графического процессора, написание числовой подпрограммы на Python будет неоптимальным.
Если ваши подпрограммы CUDA доминируют во времени вычислений (процессор остается относительно бездействующим), любой из привязок является хорошим выбором.
Лучше всего сначала создать прототип на таком языке, как Python, и, если вы обнаружите узкое место в производительности, переместите этот код в C ++.