Резюме
Я пытаюсь разработать эвристику для сопоставления предложений в переводе (с языка оригинала на переведенный язык) и хотел бы получить рекомендации и советы.Возможно, есть эвристика, которая уже делает нечто подобное?Поэтому, учитывая два текстовых файла, я хотел бы иметь возможность сопоставлять предложения (чтобы я мог выбрать предложение и сказать, что это перевод этого предложения).
Подробности
входной текст будет переведен романы.Поэтому я не ожидаю, что переводы будут буквальными, хотя использование что-то вроде google translate может быть хорошим способом проверить точность эвристики.
Чтобы помочь мне, у меня естьбиблиотека, которая будет закрашивать содержимое переведенного текста и давать мне определения слов в предложении.Другие вещи, которые я знаю:
- Главы и порядок сохранены;Я знаю, что первое предложение в третьей главе будет совпадать с первым предложением в третьей главе перевода (заметьте, это не совсем верно; первое предложение может совпадать с первыми двумя предложениями или даже со вторым предложением)
- Я могу рассчитать общий размер (символы, предложения, абзацы);что может дать мне представление о средней разнице в размере предложения (например, перевод может быть на 30% длиннее).
Если посмотреть на некоторые мои книги, переведенная версия имеет около 30%больше предложений, чем оригинальный текст.
Реализация
(если это имеет значение)
- Я планирую сделать это на Java - но я не настолько смущен - любойязык подойдет.
- Я не очень обеспокоен скоростью.
Я думаю, чтобы быть уверенным в совпадениях, может потребоваться некоторая обратная связь с пользователем.Как сказать: «Да, это предложение определенно совпадает с этим предложением».Это дало бы эвристике больше оснований для того, чтобы стоять на ней.Это будет означать, что пользователю потребуется немного знания языков.
Фон
(для тех, кто заинтересован)
Причина, по которой я хочу это сделать, заключается в том, что я хочу, чтобы это помогло мне в изучении иностранных языков.Я изучаю японский язык и мне трудно найти «хороший» материал (где «хороший» определяется тем, что мне нравится).Уже есть инструменты для создания чего-то подобного с субтитрами из видео (более простая задача - использование информации о времени видео).Но ничего, насколько я знаю, для текстов.