Я пытаюсь построить модель Neural Machine Translation, которая переводит латексный код на английский.
Примером этого может быть: "\ frac {1 ^ {n}} {12}" -> "Один в степени n, деленный на 12".
Проблема в том, что у меня недостаточно данных для обучения, чтобы получить хороший результат.
Есть ли способ обучить модель с небольшим набором данных или искусственно увеличить объем обучающих данных для этой проблемы?
Я нашел решения для машинного перевода без параллельных данных, которые создали словарь "путем выравнивания одноязычных пространств для встраивания слов без присмотра" . Эти подходы, похоже, основаны на том факте, что человеческие языки очень похожи по своей природе. Но латексный код сильно отличается от человеческих языков, и я не думаю, что это даст хорошие результаты.