Предварительная обработка обучающих данных для Microsoft Custom Translator Text JA-> EN?(токенизация, строчные буквы) - PullRequest
0 голосов
/ 28 мая 2019

Я создаю пользовательскую модель из обучающего набора в тексте Microsoft Translator Text для перевода с японского (JA) на английский (EN). Должны ли данные обучения быть размечены и предпочтительны ли все строчные буквы?

В японском языке кавычки (「」 и 『』) отличаются от английских. В данных обучения JA они должны быть токенизированы (разделены пробелом)? Параллельно с обучающими данными EN следует использовать кавычки EN ("") или кавычки JA?

Помимо этого, желательна ли какая-либо другая предварительная обработка, такая как преобразование текста во все строчные буквы? Текстовый регистр, возвращаемый моделью при развертывании, не имеет значения.

1 Ответ

0 голосов
/ 29 мая 2019

Оставьте учебный материал так, как вы бы его представили читателю-человеку, с неповрежденными корпусом и пунктуацией.Оболочка и пунктуация имеют значение при переводе, это актуальный сигнал для двигателя.Нет причин применять вашу собственную токенизацию, это будет мешать системной токенизации.Лучший учебный материал - выровненный по предложению или сегменту, как если бы вы получали его в TMX или XLIFF при экспорте из TM.

...