Когда графический процессор получает неисправимую ошибку ECC, она не сообщается напрямую ни одному приложению.Драйвер ядра регистрирует Xid 48, за которым следует Xid 63, и графический процессор фактически отключается до тех пор, пока не будет сброшен утилитой nvidia-smi или перезагрузкой компьютера.Подробности см. Здесь: https://docs.nvidia.com/deploy/xid-errors/index.html
С точки зрения приложения, эффект заключается в том, что в какой-то момент ядра начинают не запускаться.В зависимости от приложения вы можете получить сообщение об ошибке.Я полагаю, что тензор потока проверяет ошибки большую часть времени, и приложение, в конечном счете, потерпит неудачу с утверждением.Вероятно, что сообщения об ошибках не будут иметь никаких признаков того, что сбой имеет какое-либо отношение к ошибке ECC.
Самый первый сбой после обнаружения неисправимой ошибки может выглядеть особенно озадачивающим.В этот момент ошибка приводит к прерыванию некоторой продолжающейся операции, и вы можете в конечном итоге получить довольно широкий диапазон возможных ошибок.Опять же, никто из них не скажет ничего об ошибках ECC, и вам нужно будет проверить это самостоятельно.