[0, 1]
выходные данные, как правило, должны быть округлены таким образом, чтобы> = 0,5 округлялось до 1 при выводе окончательного прогноза и <0,5 округлялось до 0. Однако ваши метки должны быть значениями с плавающей запятой <code>{0.0, 1.0} для функции потерь (которую я ожидаю, что они уже). Вы можете вычислить точность, округлив выходные данные и сравнив их с двоичными метками, чтобы подсчитать ошибки для {0, 1}
, но они должны быть в форме [0.0, 1.0]
, чтобы расчеты потерь и градиентов работали.
Если вы делаете все это (и кажется, что все настроено правильно в вашем коде), может быть несколько причин для низкой производительности:
1) Ваш плотный слой "сужения" должен быть значительно меньше, чем ваш ввод. Делая его меньше, вы заставляете авто-кодер запоминать типичную форму ввода, которую можно использовать для вывода. Эта репрезентативная форма, вероятно, хорошо обобщает. Если вы увеличите размер скрытого слоя, сеть будет иметь гораздо больше возможностей для запоминания входных данных.
2) У вас может быть гораздо больше 0
значений, чем 1
значений, если это так, то при отсутствии фактического обучения сеть может застрять, просто прогнозируя 0 как «лучшее предположение», потому что это «обычно» право". Это более сложная проблема. Вы можете подумать о том, чтобы умножить потери на вектор labels * eta + 1
, это эффективно увеличит скорость обучения меток. Пример: ваши метки [0, 1, 0]
, eta - это значение гиперпараметра> 1, скажем, eta = 2.0. labels * eta = [1.0, 3.0, 1.0]
, который увеличивает градиент сигнала на 1 значение, увеличивая потери только на 1
. Это не пуленепробиваемый метод повышения важности класса 1
, но попробовать это просто. Если это приведет к какому-либо улучшению, проследите за этим рассуждением более подробно.
3) У вас есть 1 скрытый слой, что означает, что вы ограничены линейными отношениями, вы можете попробовать 3 скрытых слоя, чтобы добавить немного нелинейности. Ваш центральный слой должен быть довольно маленьким, попробуйте что-то вроде 5 или 10 нейронов, ему нужно сжать данные в довольно узкую точку сужения, чтобы извлечь представление общего назначения.