Нейронный машинный перевод с латекса на английский без достаточных данных для обучения - PullRequest
0 голосов
/ 06 мая 2018

Я пытаюсь построить модель Neural Machine Translation, которая переводит латексный код на английский. Примером этого может быть: "\ frac {1 ^ {n}} {12}" -> "Один в степени n, деленный на 12". Проблема в том, что у меня недостаточно данных для обучения, чтобы получить хороший результат.

Есть ли способ обучить модель с небольшим набором данных или искусственно увеличить объем обучающих данных для этой проблемы?

Я нашел решения для машинного перевода без параллельных данных, которые создали словарь "путем выравнивания одноязычных пространств для встраивания слов без присмотра" . Эти подходы, похоже, основаны на том факте, что человеческие языки очень похожи по своей природе. Но латексный код сильно отличается от человеческих языков, и я не думаю, что это даст хорошие результаты.

...