Даже если для ввода и вывода используются одни и те же символы, вполне допустимо использовать разные представления на каждом конце.Перекрестная энтропия является функцией двух вероятностных распределений.В этом случае два распределения являются распределением softmax, заданным моделью, и точечной массой на «правильном» байте.
Для вопроса 1 да, это то, что делается с точки зрения входов и выходов(хотя реализация может быть оптимизирована).
Чтобы ответить на вопрос 2, наиболее распространенным является формирование распределения softmax на каждом шаге, а затем выборка из него.