Немного более длинная версия комментария @talonmies:
Графические процессоры потрясающие, но у них все еще есть ограниченные ресурсы. Любое грамотно созданное приложение, использующее графический процессор, сделает все возможное для насыщения устройства, оставив мало ресурсов для других приложений. Фактически, одна из целей и задач оптимизации кода GPU - будь то шейдер, ядро CUDA или CL - заключается в обеспечении максимально эффективного использования всех CU.
Предполагая, что TF уже выполняет что: при запуске другого приложения с большим количеством графических процессоров или при совместном использовании ресурса, на котором уже запущен полный наклон. Итак, все замедляется.
Некоторые опции:
Получить секунду или быстрее, графический процессор.
Оптимизируйте свои ядра CUDA, чтобы уменьшить требования и упростить ваши вещи TF. Хотя это всегда важно учитывать при разработке для GPGPU, вряд ли это поможет решить вашу текущую проблему.
Не запускайте эти вещи одновременно. Это может оказаться немного быстрее, чем эта ситуация квазиминхронизации, которая у вас есть в настоящее время.