Нет особых условий переполнения на CPU. Оба должны реализовать IEEE 754.
Существуют различные способы реализации некоторых высокоуровневых функций (tanh, sigmoid), и они реализуются по-разному на GPU и CPU, чтобы использовать преимущества платформы.
Всякий раз, когда вы получаете NaN от вашей модели, что-то, скорее всего, сломано. Не пытайтесь исправить это с каким-то флагом, вместо этого попробуйте отладить и посмотреть, что происходит. Почти во всех случаях у вас есть вырожденная модель, которая работает только из-за углового случая некоторого оборудования.
После того, как вы нашли проблему, ее обычно исправляют, ограничивая некоторые значения или изменяя способ представления данных (например, принимая журнал больших чисел).