Перевод с Упрощенного на Традиционный Китайский - PullRequest
19 голосов
/ 14 мая 2011

Если веб-сайт локализован / интернационализирован с переводом на упрощенный китайский ...

  • Можно ли надежно автоматически конвертировать текст в Традиционный китайский в высоком качестве способ
  • Если это так, будет ли оно очень высокого качества или просто хорошей отправной точкой для настройки переводчиком?
  • Есть ли инструменты с открытым исходным кодом (в идеале на PHP), чтобы сделать такое преобразование?
  • Лучше ли конверсия в одну сторону по сравнению с другой (упрощенная -> традиционная или наоборот)?

Ответы [ 6 ]

23 голосов
/ 14 мая 2011

Краткий ответ: Нет, не надежно + высокое качество. Я не рекомендовал бы автоматизированные инструменты, если рынок не так важен для вас, и вы можете рисковать некоторыми публично неловкими махинациями. Вы можете обнаружить, что некоторые фирмы по локализации более счастливы начать с качественного упрощенного китайского перевода и адаптировать его к традиционному, но вы также можете обнаружить, что многие компании предпочитают начинать с английского источника.

Более длинный ответ: Есть некоторые случаи, когда отличаются только глифы, и у них разные кодовые точки Юникода. Но есть также некоторые идиоматические и словарные различия между КНР и Тайванем / Гонконгом, и ваше качество пострадает, если они не будут обработаны. Технические термины могут быть более проблематичными или менее, в зависимости от эпохи, в которой термины стали широко использоваться. Некоторые из этих проблем могут быть обнаружены автоматическими инструментами, но не всеми. Конечно, если вы идете по пути автоматического преобразования вещей, убедитесь, что вы получаете выкуп от команд QA, базирующихся на каждом из ваших целевых рынков.

Кроме того, существуют и социально-политические проблемы. Например, вы можете использовать такие термины, как «Китайская Республика» на Тайване, но это по-королевски разозлит правительство Китая, если оно появится в вашей упрощенной китайской версии (а иногда и в вашей английской версии); если у вас есть фактическая дочерняя компания или партнер в Китае, персонал может быть арестован исключительно на основании подрывной терминологии. (Это не уникально для Китая; Пакистан / Индия и Турция имеют похожие проблемы). Вы можете столкнуться с подобными проблемами, называя «Тайвань» «страной».

9 голосов
/ 04 июня 2011

Как сам коренной гонконгец, я согласен с @JasonTrue: не делай этого.Вы рискуете разозлить и оскорбить ваших потенциальных пользователей в Тайване и Гонконге.

НО , если вы все еще настаиваете на этом, посмотрите на какВикипедия делает это ; здесь - это одна реализация (примечание лицензии).

4 голосов
/ 06 февраля 2012

По сути, упрощенные китайские слова имеют много пропущенных значений. Ни один язык программирования в мире не сможет точно преобразовать упрощенный китайский в традиционный китайский. Вы просто создадите путаницу для своей целевой аудитории (Гонконг, Макао, Тайвань).

Прекрасным примером неудачного перевода с упрощенного китайского на традиционный китайский является слово «后». В упрощенном виде оно имеет два значения: «позади» или «королева». Однако, когда вы пытаетесь преобразовать это обратно в традиционный китайский, может быть более двух вариантов символов:: «позади» или qu «королева». Один забавный пример, с которым я столкнулся, - это переводчик, который преобразовал «皇后 大道» Queen's Road в «皇後 大道», что буквально означает «Queen's Behind Road».

Если ваш алгоритм перевода не очень умный, он неизбежно приведет к ошибкам. Так что вам лучше нанять очень хорошего переводчика, который свободно владеет обоими типами китайского языка.

4 голосов
/ 17 мая 2011

Возможно ли надежное автоматическое преобразование текста в традиционный китайский с высоким качеством?

Другие ответы сосредоточены на трудностях, но они преувеличены.Одна вещь заключается в том, что значительная часть персонажей абсолютно одинакова.Второе - это упрощенные формы: упрощенные формы традиционных символов.Это означает, что в основном существует отношение 1: 1 между традиционными и упрощенными символами.

Если да, будет ли оно очень высокого качества или просто хорошей отправной точкой для настройки переводчиком?

Несколько вещей потребуется настроить.

Существуют ли инструменты с открытым исходным кодом (в идеале в PHP) для такого преобразования?

Не так лиЯ знаю, хотя вы, возможно, захотите проверить API Google Translate?

Является ли конверсия лучше в одну сторону по сравнению с другой (упрощенная -> традиционная или наоборот)?

Несколько символов потеряли различие в упрощенном алфавите.Например, 麵 (мука) была упрощена до того же символа, что и 面 (лицо, сторона).По этой причине традиционный-> упрощенный будет немного более точным.

Я также хотел бы отметить, что традиционные символы используются не только на Тайване (их можно найти в Гонконге, а иногда даже на материке).)


Мне удалось найти это и это .Необходимо создать учетную запись для загрузки, хотя.Сам никогда не пользовался сайтом, поэтому не могу за него поручиться.

0 голосов
/ 12 октября 2016

Краткий ответ: Да. И это легко. Сначала вы можете преобразовать его из UTF-8 в BIG5, затем есть множество инструментов для преобразования BIG5 в GBK, а затем вы можете преобразовать GBK в UTF-8.

0 голосов
/ 14 мая 2011

Я ничего не знаю о любой форме китайского языка, но, глядя на примеры в на этой странице Википедии Я склонен думать, что автоматическое преобразование возможно, так как многие фразы, похоже, используют одно и то жеколичество символов и даже некоторые одинаковые символы.

Я запустил быстрый тест с использованием многобайтовой функции ord(), и я не вижу никаких шаблонов, которые позволили бы автоматическое преобразованиебез использования (огромной?) справочной таблицы перевода.

Traditional Chinese 漢字
Simplified Chinese  汉字

function mb_ord($string)
{
    if (is_array($result = unpack('N', iconv('UTF-8', 'UCS-4BE', $string))) === true)
    {
        return $result[1];
    }

    return false;
}

var_dump(mb_ord('漢'), mb_ord('字')); // 28450, 23383
var_dump(mb_ord('汉'), mb_ord('字')); // 27721, 23383

Это может быть хорошим местом для начала построения LUTT:

Я получил этот другой связанный ответ , который, кажется, в некоторой степени согласуется с моими рассуждениями:

В нескольких странах основным письменным языком является китайский.Основное различие между ними заключается в том, используют ли они упрощенные или традиционные символы, , но существуют также незначительные региональные различия (в словаре и т. Д.).

...