Question

Где я могу найти таблицу Unicode, показывающую только упрощенные китайские иероглифы?Я искал везде, но ничего не могу найти.

ОБНОВЛЕНИЕ:
Я обнаружил, что существует другая кодировка под названием GB 2312 -
http://en.wikipedia.org/wiki/GB_2312
- которая содержит только упрощенные символы.
Конечно, я могу использовать это, чтобы получить то, что мне нужно?

Я также нашел этот файл, который отображает GB2312 в Unicode -
http://cpansearch.perl.org/src/GUS/Unicode-UTF8simple-1.06/gb2312.txt
- но я не уверен, точна ли она или нет.

Если эта таблица не верна, возможно, кто-то может указать мне на такую таблицу, или, может быть, просто таблица символов GB2312 и какой-то способпреобразовать их?

ОБНОВЛЕНИЕ 2:
Этот сайт также предоставляет таблицу ГБ / Юникод и даже программу Java для создания файла со всеми символами ГБ, а также эквивалентами Юникода:
http://www.herongyang.com/gb2312/

Greg Hewgill · Answer 1 · 04 января 2011

База данных Unihan содержит эту информацию в файле Unihan_Variants.txt. Например, пара традиционных / упрощенных символов:

U+673A  kTraditionalVariant     U+6A5F
U+6A5F  kSimplifiedVariant      U+673A

В приведенном выше случае U + 6A5F - это 機, традиционная форма 机 (U + 673A).

Другой подход заключается в использовании проекта CC-CEDICT , который публикует словарь китайских иероглифов и соединений (как традиционных, так и упрощенных). Каждая запись выглядит примерно так:

宕機宕机 [dang4 ji1] / сбой (компьютера) / тайваньский термин для 當機 | 当机 [dang4 ji1] /

Первый столбец - это традиционные символы, а второй столбец упрощен.

Чтобы получить все упрощенных символов, прочитайте этот текстовый файл и составьте список всех символов, которые появляются во втором столбце. Обратите внимание, что некоторые символы могут не появляться сами по себе (только в соединениях), поэтому недостаточно взглянуть на односимвольные записи.

jpatokal · Answer 2 · 30 мая 2012

ОП не указывает, какой язык они используют, но если вы используете Ruby, я написал небольшую библиотеку , которая может различать упрощенный и традиционный китайский (плюс корейский и японский) в качестве бонуса). Как следует из ответа Грега, он полагается на дистиллированную версию Unihan_Variants.txt, чтобы выяснить, какие символы исключительно упрощены, а какие исключительно традиционны.

https://github.com/jpatokal/script_detector

Пример:

p string
=> "我的氣墊船充滿了鱔魚."
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.simplified_chinese?
=> false

Но, как должным образом предупреждает FAQ по Unicode , для надежной работы требуются значительные фрагменты текста, что приведет к вводящим в заблуждение результатам для коротких строк. Рассмотрим японцев для Токио:

p string
=> "東京"
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.japanese?
=> false

Поскольку оба символа также являются действительными традиционными китайскими символами, и нет исключительно японских символов, они распознаются неправильно.

arnsholt · Answer 3 · 04 января 2011

Я не уверен, что это легко сделать. Идеографы Хана унифицированы в Юникоде, поэтому не сразу понятно, как это сделать. Но база данных Unihan (http://www.unicode.org/charts/unihan.html) может содержать данные, которые вам нужны.

MrMesees · Answer 4 · 16 марта 2019

Вот регулярное выражение всех упрощенных китайских иероглифов, которые я сделал.По какой-то причине Stackoverflow жалуется, поэтому он связан в пастбине ниже.

https://pastebin.com/xw4p7RVJ

Вы заметите, что этот список содержит диапазоны, а не каждый отдельный символ, но такжеUTF-8 символов, не экранированные представления.Это хорошо мне помогло в той или иной итерации примерно с 2010 года. Надеюсь, что все остальные смогут сейчас его использовать.

Если вам не нужны упрощенные символы (я не могу представить, почему это не такодин раз в 9 лет), переберите все символы из ['一-龥'] и попробуйте создать новый список.Или запустите два регулярных выражения, один для проверки, это китайский, но не упрощенный китайский

Chris Haas · Answer 5 · 04 января 2011

Я не верю, что есть таблица с только упрощенными кодами. Я думаю, что все они объединены в диапазоне CJK от 0x4E00 до 0x9FFF

Michael Lowman · Answer 6 · 04 января 2011

Согласно википедии упрощенный китайский против традиционного, кандзи или других форматов во многих случаях оставлен на усмотрение шрифтов.Таким образом, хотя у вас может быть выбор упрощенных кодов китайского языка, этот список будет неполным, поскольку многие символы больше не различаются.

Упрощенная китайская таблица Unicode

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Упрощенная китайская таблица Unicode

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы