Несоответствие, упомянутое в документации, вызвано дисбалансом нагрузки между мультипроцессорами.
Например, если вы работаете с ядром с 15 блоками на Tesla C2050, который имеет 14 мультипроцессоров, один из мультипроцессоров в конечном итоге будет запускать потоки из одного «дополнительного» блока. Если профилировщик собирает данные из этого многопроцессорного запущенного потока из двух блоков за один прогон профилирования, но из одного запущенного только потока из одного блока в другом, результаты, очевидно, будут отличаться.
Чтобы ответить на тот вопрос, который вы задали, «или» включительно, как обычно на естественных языках.
Хотя я не помню, чтобы меня упоминали в документации, я могу представить, что даже если оба эти условия ложные, профилирующая несогласованность также может возникать, когда сами данные вызывают дисбаланс (количество арифметических / данных или паттернов адресации памяти зависит от данные).