Без кода я могу дать только очень общий ответ:
NaN может произойти, когда вы:
- Разделить на 0
- Логарифм слишком малых чисел
- sqrt чего-то отрицательного
Посмотрите на показатель оптимизации, чтобы увидеть, что может произойти в вашем случае. Ищите точки, где (абсолютные) числа могут стать очень большими или очень маленькими. Часто добавление небольшой константы решает проблему.
Есть много других случаев, которые, вероятно, не имеют отношения к вам:
- Арксин за пределами [-1, 1]
- float ('inf') / float ('inf')
- 0 * float ('inf')
См. Также: Мое руководство по отладке нейронных сетей