Упрощенная китайская таблица Unicode - PullRequest
8 голосов
/ 04 января 2011

Где я могу найти таблицу Unicode, показывающую только упрощенные китайские иероглифы?Я искал везде, но ничего не могу найти.

ОБНОВЛЕНИЕ:
Я обнаружил, что существует другая кодировка под названием GB 2312 -
http://en.wikipedia.org/wiki/GB_2312
- которая содержит только упрощенные символы.
Конечно, я могу использовать это, чтобы получить то, что мне нужно?

Я также нашел этот файл, который отображает GB2312 в Unicode -
http://cpansearch.perl.org/src/GUS/Unicode-UTF8simple-1.06/gb2312.txt
- но я не уверен, точна ли она или нет.

Если эта таблица не верна, возможно, кто-то может указать мне на такую ​​таблицу, или, может быть, просто таблица символов GB2312 и какой-то способпреобразовать их?

ОБНОВЛЕНИЕ 2:
Этот сайт также предоставляет таблицу ГБ / Юникод и даже программу Java для создания файла со всеми символами ГБ, а также эквивалентами Юникода:
http://www.herongyang.com/gb2312/

Ответы [ 6 ]

14 голосов
/ 04 января 2011

База данных Unihan содержит эту информацию в файле Unihan_Variants.txt. Например, пара традиционных / упрощенных символов:

U+673A  kTraditionalVariant     U+6A5F
U+6A5F  kSimplifiedVariant      U+673A

В приведенном выше случае U + 6A5F - это 機, традиционная форма 机 (U + 673A).

Другой подход заключается в использовании проекта CC-CEDICT , который публикует словарь китайских иероглифов и соединений (как традиционных, так и упрощенных). Каждая запись выглядит примерно так:

宕機 宕机 [dang4 ji1] / сбой (компьютера) / тайваньский термин для 當 機 | 当 机 [dang4 ji1] /

Первый столбец - это традиционные символы, а второй столбец упрощен.

Чтобы получить все упрощенных символов, прочитайте этот текстовый файл и составьте список всех символов, которые появляются во втором столбце. Обратите внимание, что некоторые символы могут не появляться сами по себе (только в соединениях), поэтому недостаточно взглянуть на односимвольные записи.

8 голосов
/ 30 мая 2012

ОП не указывает, какой язык они используют, но если вы используете Ruby, я написал небольшую библиотеку , которая может различать упрощенный и традиционный китайский (плюс корейский и японский) в качестве бонуса). Как следует из ответа Грега, он полагается на дистиллированную версию Unihan_Variants.txt, чтобы выяснить, какие символы исключительно упрощены, а какие исключительно традиционны.

https://github.com/jpatokal/script_detector

Пример:

p string
=> "我的氣墊船充滿了鱔魚."
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.simplified_chinese?
=> false

Но, как должным образом предупреждает FAQ по Unicode , для надежной работы требуются значительные фрагменты текста, что приведет к вводящим в заблуждение результатам для коротких строк. Рассмотрим японцев для Токио:

p string
=> "東京"
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.japanese?
=> false

Поскольку оба символа также являются действительными традиционными китайскими символами, и нет исключительно японских символов, они распознаются неправильно.

1 голос
/ 04 января 2011

Я не уверен, что это легко сделать. Идеографы Хана унифицированы в Юникоде, поэтому не сразу понятно, как это сделать. Но база данных Unihan (http://www.unicode.org/charts/unihan.html) может содержать данные, которые вам нужны.

0 голосов
/ 16 марта 2019

Вот регулярное выражение всех упрощенных китайских иероглифов, которые я сделал.По какой-то причине Stackoverflow жалуется, поэтому он связан в пастбине ниже.

https://pastebin.com/xw4p7RVJ

Вы заметите, что этот список содержит диапазоны, а не каждый отдельный символ, но такжеUTF-8 символов, не экранированные представления.Это хорошо мне помогло в той или иной итерации примерно с 2010 года. Надеюсь, что все остальные смогут сейчас его использовать.

Если вам не нужны упрощенные символы (я не могу представить, почему это не такодин раз в 9 лет), переберите все символы из ['一-龥'] и попробуйте создать новый список.Или запустите два регулярных выражения, один для проверки, это китайский, но не упрощенный китайский

0 голосов
/ 04 января 2011

Я не верю, что есть таблица с только упрощенными кодами. Я думаю, что все они объединены в диапазоне CJK от 0x4E00 до 0x9FFF

0 голосов
/ 04 января 2011

Согласно википедии упрощенный китайский против традиционного, кандзи или других форматов во многих случаях оставлен на усмотрение шрифтов.Таким образом, хотя у вас может быть выбор упрощенных кодов китайского языка, этот список будет неполным, поскольку многие символы больше не различаются.

...