Я создаю сеть LSTM, в которой вывод находится в виде горячих закодированных направлений влево, вправо, вверх и вниз. Это выглядит примерно так:
[0. 0. 1. 0.]
[1. 0. 0. 0.]
[0. 0. 1. 0.]
...
[0. 0. 1. 0.]
[0. 0. 1. 0.]
[0. 0. 0. 0.]
Каким должен быть допустимый диапазон категориальных потерь кросс-энтропии, чтобы считать модель успешно обученной?