Я создаю пользовательскую модель из обучающего набора в тексте Microsoft Translator Text для перевода с японского (JA) на английский (EN). Должны ли данные обучения быть размечены и предпочтительны ли все строчные буквы?
В японском языке кавычки (「」 и 『』) отличаются от английских. В данных обучения JA они должны быть токенизированы (разделены пробелом)? Параллельно с обучающими данными EN следует использовать кавычки EN ("") или кавычки JA?
Помимо этого, желательна ли какая-либо другая предварительная обработка, такая как преобразование текста во все строчные буквы? Текстовый регистр, возвращаемый моделью при развертывании, не имеет значения.