Непонятное примечание в октябрьском выпуске Руководства пользователя нестандартного переводчика за 2018 год - PullRequest
0 голосов
/ 08 ноября 2018

Кто-нибудь может уточнить, что именно означает следующее примечание?

ПРИМЕЧАНИЕ: Не должно быть символов новой строки; «\ N» или «\ r» в конце предложения. Если это произойдет, выравнивание предложений будет искажено, и обучение не будет эффективным.

Примечание появляется на стр. 5, раздел 2.1.2.1 Параллельные документы.

Это относится к любым форматам документов? Это не имеет особого смысла (по крайней мере для меня), например, для документов .align ...

1 Ответ

0 голосов
/ 08 ноября 2018

Спасибо, что обратили на это наше внимание. Мы будем обновлять документацию, поскольку это утверждение является неточным. Следует читать

"ПРИМЕЧАНИЕ: в предложении не должно быть символов новой строки;« \ n »или« \ r »в предложении. Если это произойдет, выравнивание предложений будет нарушено, и обучение не будет эффективным."

Проблема, которую мы хотим решить, заключается в том, что параллельные документы не должны разбивать одно предложение на несколько строк, поскольку это делает выравнивание предложений гораздо менее эффективным.

В связи с вашим вопросом относительно файлов .align. Мы не выравниваем предложения в этих файлах, поэтому вы можете разбивать предложения на несколько строк, если вы делаете это последовательно. То есть, если у вас есть предложение, разбитое на три строки на стороне источника, оно должно быть разбито на три строки на стороне цели. Поскольку выравниватель предложений не используется, даже один в непревзойденном разбиении приведет к смещению во всех следующих предложениях. Делить предложения не имеет смысла, поэтому я настоятельно призываю вас не делать этого.

...