Настройка движка переводчика Microsoft: параллельные текстовые файлы - PullRequest
0 голосов
/ 28 июня 2018

Я пытаюсь выполнить настройку движка NMT для японского, но у меня возникают трудности с загрузкой параллельных txt файлов. Я собрал 10k параллельных предложений и поместил их в два текстовых файла:

imagewc -l">

Как указывалось в руководстве, я также старался удалять предложения, содержащие в себе символы \n и \r, но при загрузке получаю следующее:

upload line count mismatch

Что не так?

Ответы [ 2 ]

0 голосов
/ 29 июня 2018

Мы отображаем количество предложений, потому что движок обучения модели работает на уровне предложения. Ожидаемый формат набора параллельных файлов txt - одно предложение для каждой строки. Во время процесса загрузки мы запускаем средство разбиения предложений, которое идентифицирует маркеры конца предложения и разрывы соответственно. Вот почему количество предложений не всегда соответствует количеству строк. Предложения - это единицы, над которыми мы работаем, а не строки входного файла. Вот почему мы фокусируемся на предложениях, а не на строках.

Именно поэтому мы предлагаем удалить символы новой строки в предложениях. Новая строка считается маркером конца предложения, поэтому наличие новых строк в предложении создает ложный разрыв предложения.

В ответ на ваше второе беспокойство мы запускаем процесс выравнивания предложений для большинства представленных данных. Если в загруженных параллельных файлах имеется непоследовательное количество предложений, мы обычно можем получить большинство пар предложений, если предложения достаточно близки.

0 голосов
/ 28 июня 2018

После некоторой «отладки» я заметил, что число, показанное на портале, является количеством предложений (вместо строк, мой плохой!). Я нахожу это немного запутанным (и не очень полезным, по моему мнению). Какая польза от отображения этой информации? Кроме того, я заметил, что нет никакого предупреждения, если вы загружаете один файл, содержащий меньше строк, чем второй файл (что делает параллельные файлы больше не параллельными - весь смысл параллельных файлов состоит в том, чтобы в исходном файле было X строк и X строк в целевом файле). Было бы полезно, если бы было показано хотя бы предупреждение для предотвращения ошибок (если вы используете параллельные файлы и len(f1)!=len(f2), это отличный индикатор того, что что-то не так)

...