Как использовать Unicode Character Combining с Kanji / Hanzi? - PullRequest
3 голосов
/ 23 августа 2010

Я пытаюсь найти обходной путь для отображения старых и редких символов в юникоде с использованием объединения символов.В настоящее время я конвертирую некоторые словари из EPWING в текст, и есть 36 различных символов, которые невозможно воспроизвести с помощью обычного UTF-8.Ниже приведен проблемный раздел epwing gaiji для сопоставления юникода для одного из преобразованных мной словарей, в некоторых областях он имеет интересный синтаксис, который явно используется для объединения символов по-разному.Я надеялся, что кто-нибудь сможет определить, что это за синтаксис, и где я мог бы найти документацию или руководство по его использованию.

s/<?w=b02a>/?/g
s/<?w=b04b>/者/g
s/<?w=b064>/<⾱ ?>/g
s/<?w=b077>/<彳<匕\/匕>>/g
s/<?w=b07c>/<山\/⺀>/g
s/<?w=b12e>/?/g
s/<?w=b155>/</>/g
s/<?w=b156>/<\/>/g
s/<?w=b157>/<\/\/>/g
s/<?w=b158>/<こ[1]/と|ヿ>/g
s/<?w=b16f>/<㗢>/g
s/<?w=b170>/<㗥>/g
s/<?w=b171>/ଏ/g
s/<?w=b175>/lb/g
s/<?w=b22a>//g
s/<?w=b234>/ff/g
s/<?w=b25e>/㯌/g
s/<?w=b271>/<扌 晉>/g
s/<?w=b36b>/?/g
s/<?w=b373>/?/g
s/<?w=b42c>/?/g
s/<?w=b434>/<已\/大>/g
s/<?w=b438>/?/g
s/<?w=b43a>/?/g
s/<?w=b43f>/<㇀/丶>/g
s/<?w=b440>/?/g
s/<?w=b45a>/<?>/g
s/<?w=b45b>/<|>/g
s/<?w=b53d>/<?>/g
s/<?w=b53e>/<?>/g
s/<?w=b540>/<o>/g
s/<?w=b537>/<ト モ>/g
s/<?w=b541>/<一/?>/g
s/<?w=b544>/<?>/g
s/<?w=b546>/<[r45]卐>/g
s/<?w=b55f>/*/g

Я знаю, что эта строка должна представлять 彳 как вертикальную левуюрадикал с одним 匕, сложенным поверх другого 匕 как правая вертикальная часть символа:

s/<?w=b077>/<彳<匕\/匕>>/g

Это также довольно очевидно, это 卐 повернуто на 45 градусов:

s/<?w=b546>/<[r45]卐>/g

Примечание: шестнадцатеричные коды из четырех символов, которые следуют после? W =, являются идентификатором epwing gaiji, которому должен соответствовать юникод.

Спасибо за ваше время.

1 Ответ

4 голосов
/ 05 июня 2011

См. Стандарт Unicode раздел 12.2, Идеографические символы описания. Здесь обсуждается ваша точная ситуация.

К сожалению, вы можете обнаружить, что программная поддержка того, что вы пытаетесь сделать, практически отсутствует.

...