Мы отображаем количество предложений, потому что движок обучения модели работает на уровне предложения. Ожидаемый формат набора параллельных файлов txt - одно предложение для каждой строки. Во время процесса загрузки мы запускаем средство разбиения предложений, которое идентифицирует маркеры конца предложения и разрывы соответственно. Вот почему количество предложений не всегда соответствует количеству строк. Предложения - это единицы, над которыми мы работаем, а не строки входного файла. Вот почему мы фокусируемся на предложениях, а не на строках.
Именно поэтому мы предлагаем удалить символы новой строки в предложениях. Новая строка считается маркером конца предложения, поэтому наличие новых строк в предложении создает ложный разрыв предложения.
В ответ на ваше второе беспокойство мы запускаем процесс выравнивания предложений для большинства представленных данных. Если в загруженных параллельных файлах имеется непоследовательное количество предложений, мы обычно можем получить большинство пар предложений, если предложения достаточно близки.