Алгоритм оценки количества английских слов перевода из японского источника - PullRequest
4 голосов
/ 28 сентября 2008

Я пытаюсь найти способ оценить количество английских слов, в которые переводится с японского. Японский язык имеет три основных сценария - кандзи , хирагана и катакана - и каждый имеет различное среднее отношение символов к словам (кандзи является самым низким Катакана высшая).

Примеры:

  • компьютер: コ ン ピ ュ ー タ (Катакана - 6 персонажи);計算機 (кандзи: 3 символы)
  • кит: く じ ら (Хирагана - 3 символа);鯨 (кандзи: 1 символы)

В качестве данных у меня есть большой глоссарий японских слов и их переводов на английский язык, а также довольно большой свод соответствующих японских исходных документов и их переводов на английский язык. Я хочу придумать формулу, которая будет подсчитывать количество символов кандзи, хирагана и катакана в исходном тексте и оценивать количество английских слов, в которые это может превратиться.

Ответы [ 7 ]

3 голосов
/ 28 сентября 2008

Вот что Borland (сейчас Embarcadero) думает о английском языке не на английском:

Длина английской строки (в символах)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

Я думаю, вы можете применить это (с некоторой модификацией) для японского языка к не японскому.

Другим элементом, который вы можете рассмотреть, является тон языка. На английском языке инструкции сформулированы как обязательные, как в «Нажмите OK». Но в японском языке императивы считаются грубыми, и вы должны сформулировать инструкции на почетном (или кейго) языке, как в «ОК», «101» *

Не упустите трехбуквенные комбинации кандзи. Многие из громких слов переводятся в трех- или четырехбуквенную комбинацию кандзи, такую ​​как 国際 化 (интернационализация: 20 символов), 高 可用性 (высокая доступность: 17 символов).

1 голос
/ 11 февраля 2009

Как опытный переводчик с японского на английский, я могу сказать, что это чрезвычайно сложно измерить количественно, но, как правило, по моему опыту, английский текст, переведенный с японского, почти на 200% состоит из исходного текста. В японском языке есть много специфичных для культуры фраз и существительных, которые не могут быть переведены буквально и должны быть объяснены на английском языке. При переводе для меня нет ничего необычного в том, чтобы взять одно японское предложение и сделать из него один английский абзац, чтобы смысл был доведен до читателя. Вне моей вот пример:

「懐 か し い」

Это буквально означает ностальгию. Тем не менее, на японском языке это может использоваться как одна фраза в восклицании. Тем не менее, в английском языке, чтобы передать чувство ностальгии, нам нужно намного больше контекста. Например, вам может понадобиться превратить эту фразу в предложение:

«Когда я проходил мимо моей старой начальной школы, меня наводнили воспоминания о прошлом».

Именно поэтому машинный перевод с японского на английский невозможен.

1 голос
/ 13 декабря 2008

По моему опыту в качестве переводчика и специалиста по локализации хорошее практическое правило - 2 японских символа на каждое английское слово.

1 голос
/ 28 сентября 2008

Я бы начал с линейного приближения: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, когда коэффициенты a1, a2, a3 соответствуют вашим данным с использованием линейных наименьших квадратов.

Если это не очень хорошо приближается, посмотрите на худшие случаи по причинам, которые им не подходят (специализированные слова и т. Д.).

1 голос
/ 28 сентября 2008

Ну, это немного сложнее, чем просто количество символов в существительном по сравнению с английским, например, японский язык также имеет другую грамматическую структуру по сравнению с английским, поэтому некоторые предложения будут использовать БОЛЕЕ слова на японском языке, а другие используйте МЕНЬШЕ слов. Я действительно не знаю японский, поэтому, пожалуйста, прости меня за использование корейского в качестве примера.

В корейском языке предложение часто короче английского предложения, главным образом из-за того, что оно обрезается с помощью контекста для заполнения пропущенных слов. Например, сказать «я люблю тебя» можно так же кратко, как 사랑해 («sarang hae», просто глагол «любовь»), или до полного предложения 저는 qualified 을 살앙 해요 (я [тема] ты [объект] ] love [глагол + вежливый модификатор]. В тексте то, как оно написано, зависит от контекста, который обычно задается более ранними предложениями в абзаце.

Во всяком случае, иметь алгоритм, чтобы фактически ЗНАТЬ подобные вещи, было бы очень сложно, так что вы, вероятно, намного лучше, просто используя статистику. Что вы должны сделать, это использовать случайные образцы, где известные японские тексты и английские тексты имеют одинаковое значение. Чем больше выборка (и чем она более случайная), тем лучше ... хотя, если они действительно случайные, не будет иметь большого значения, сколько вы прошли за несколько сотен.

Теперь, еще одна вещь, это соотношение будет полностью меняться в зависимости от типа переводимого текста. Например, высокотехнологичный документ, скорее всего, будет иметь гораздо более высокое отношение длины к японскому / английскому языку, чем роман со сладостями.

Что касается простого использования вашего словаря переводов слов - это, вероятно, не будет работать хорошо (и, вероятно, неправильно). Одно и то же слово не переводится в одно и то же слово каждый раз на другом языке (хотя в технических дискуссиях это случается гораздо чаще). Например, слово красивое. Существует не только несколько слов, которые я мог бы назначить ему по-корейски (то есть, есть выбор), но иногда я теряю этот выбор, как в предложении (эта еда прекрасна), где я не имею в виду, что еда выглядит хорошо. Я имею в виду, что это вкусно, и мой вариант перевода для этого слова меняется. И это ОЧЕНЬ распространенное обстоятельство.

Еще одна большая проблема - оптимальный перевод. Что-то, в чем люди действительно плохи, и что-то, в чем компьютеры намного хуже. Всякий раз, когда я корректирую документ, переведенный с другого текста на английский, я всегда вижу различные способы сократить его намного короче.

Таким образом, хотя со статистикой вы сможете рассчитать довольно хорошее среднее соотношение по длине между переводами, оно будет сильно отличаться, если бы все переводы были оптимальными.

0 голосов
/ 10 апреля 2009

Мой (хотя и крошечный) опыт показывает, что независимо от языка блоки текста занимают одинаковое количество печатного пространства для передачи эквивалентной информации. Таким образом, для блока текста большого размера вы можете назначить счетчик ширины для каждого символа на английском языке (возьмите его из обычного шрифта, такого как Times New Roman), и аналогичным образом использовать общий японский шрифт с тем же размером точки для вычисления количество символов, которое потребуется.

0 голосов
/ 28 сентября 2008

Это кажется достаточно простым - вам просто нужно выяснить отношения.

Для каждого сценария подсчитайте количество символов сценария и английских слов в вашем глоссарии и определите соотношение.

Это может быть дополнено исходными документами на японском языке при условии , вы можете одновременно определить, в каком сценарии написано японское слово, а также в английской эквивалентной фразе в переводе. В противном случае вам придется угадывать соотношения или игнорировать это как исходные данные,

Затем, как вы говорите, посчитайте количество слов в каждом сценарии вашего исходного текста, сделайте умножения, и вы получите приблизительную оценку.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...