Проверьте, какой из двух вариантов является традиционным, а какой - упрощенным китайским - PullRequest
0 голосов
/ 21 марта 2011

Я получаю противоречивые результаты от API карт Google,

|Head southwest on 吳江路/吴江路 toward 泰兴路/泰興路 
|Head southwest on TRAD/SIMP toward SIMP/TRAD

В настоящее время я сопоставляю китайские слова с этим регулярным выражением ([^\u0000-\u0080]|/)+

Затем я взрываю спички и получаю пары 吳江路 vs 吴江路, удаляя общие символы. Можно ли определить, какой из и является традиционным или упрощенным символом?

1 Ответ

1 голос
/ 21 марта 2011

Вам нужна традиционная таблица упрощенных отображений для Unicode. Google это, и вы найдете один легко. Если вы не можете найти его, то вы можете создать его, загрузив таблицу сопоставления Big5-> GB, а затем преобразовав обе стороны в Unicode (с помощью таблиц сопоставления Big5-> Unicode и GB-> Unicode, которые легко доступны).

Если вы найдете символ в «упрощенном» разделе, то он, скорее всего, является упрощенным символом (поскольку традиционный символ соответствует этому).

Обратите внимание, что это не научный метод, поскольку несколько традиционных символов могут отображаться на один упрощенный символ, и этот упрощенный символ может быть идентичен традиционному символу. В этом случае вам нужно решить, будете ли вы называть это традиционным или нет.

Например, sometimes иногда отображается в 后 в упрощенном виде, но это также идентично традиционному символу «королева».

Если вы просто сопоставляете пары символов, вы можете попытаться найти преобразования в обоих направлениях. Самое большее, вы найдете одно обращение в одном направлении, и это ваш ответ.

...