Я пытаюсь закодировать программу для контролируемого обучения (Python 3) на Jupyter, используя дискриминационный RBM.Я заметил, что моя программа переполняется при проблемах среднего размера (например, 10 видимых, 20 скрытых и 10 классов), хотя я просто использую обычную схему CD-1. \ Cf: http://www.jmlr.org/papers/volume13/larochelle12a/larochelle12a.pdf
У кого-нибудь есть такая же проблема?Есть ли у вас решение?
Когда я пробую тот же код на простом примере (где возможно точное вычисление вероятности), вероятность увеличивается с эпохой обучения.