Как мне разработать эвристику для сопоставления переведенных предложений? - PullRequest
2 голосов
/ 21 июня 2011

Резюме

Я пытаюсь разработать эвристику для сопоставления предложений в переводе (с языка оригинала на переведенный язык) и хотел бы получить рекомендации и советы.Возможно, есть эвристика, которая уже делает нечто подобное?Поэтому, учитывая два текстовых файла, я хотел бы иметь возможность сопоставлять предложения (чтобы я мог выбрать предложение и сказать, что это перевод этого предложения).

Подробности

входной текст будет переведен романы.Поэтому я не ожидаю, что переводы будут буквальными, хотя использование что-то вроде google translate может быть хорошим способом проверить точность эвристики.

Чтобы помочь мне, у меня естьбиблиотека, которая будет закрашивать содержимое переведенного текста и давать мне определения слов в предложении.Другие вещи, которые я знаю:

  • Главы и порядок сохранены;Я знаю, что первое предложение в третьей главе будет совпадать с первым предложением в третьей главе перевода (заметьте, это не совсем верно; первое предложение может совпадать с первыми двумя предложениями или даже со вторым предложением)
  • Я могу рассчитать общий размер (символы, предложения, абзацы);что может дать мне представление о средней разнице в размере предложения (например, перевод может быть на 30% длиннее).

Если посмотреть на некоторые мои книги, переведенная версия имеет около 30%больше предложений, чем оригинальный текст.

Реализация

(если это имеет значение)

  • Я планирую сделать это на Java - но я не настолько смущен - любойязык подойдет.
  • Я не очень обеспокоен скоростью.

Я думаю, чтобы быть уверенным в совпадениях, может потребоваться некоторая обратная связь с пользователем.Как сказать: «Да, это предложение определенно совпадает с этим предложением».Это дало бы эвристике больше оснований для того, чтобы стоять на ней.Это будет означать, что пользователю потребуется немного знания языков.

Фон

(для тех, кто заинтересован)

Причина, по которой я хочу это сделать, заключается в том, что я хочу, чтобы это помогло мне в изучении иностранных языков.Я изучаю японский язык и мне трудно найти «хороший» материал (где «хороший» определяется тем, что мне нравится).Уже есть инструменты для создания чего-то подобного с субтитрами из видео (более простая задача - использование информации о времени видео).Но ничего, насколько я знаю, для текстов.

1 Ответ

1 голос
/ 23 июня 2011

В исследованиях НЛП используются инструменты, называемые «выравнивателями предложений», которые делают именно то, что вы хотите.

Я советую hunalign:

http://mokk.bme.hu/resources/hunalign/

и MS-предложениевыравниватель:

http://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/

Оба в порядке, но помните, что нет ничего идеального.Предложения, которые слишком трудно выровнять, будут отброшены, а некоторые предложения могут быть выровнены неправильно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...