Я написал код CUDA для решения проблемы NP-Complete, но производительность оказалась не такой, как я подозревал.
Я знаю о "некоторых" методах оптимизации (с использованием общей памяти, текстур, нуля ...)
Каковы наиболее важные методы оптимизации, о которых должны знать программисты CUDA?