Чтение Word Do c Использование Open Xml и Как отобразить слово Symbol в Html - PullRequest
0 голосов
/ 02 мая 2020

Я читаю документ Word, используя OPEN XML. Во время чтения документа текст содержит некоторые специальные символы и представляет собой тег символа, как показано ниже enter image description here

Как отобразить специальный символ в HTML Используя этот код символа ( "F06D").

Спасибо.

1 Ответ

0 голосов
/ 02 мая 2020

Согласно соответствующему стандарту для формата .docx (ISO / IEC STANDARD 29500-1), в элементе <sym> значение атрибута w:char="F06D" означает либо

  • , что символ является символом Unicode F06D или

  • , что F06D был создан путем добавления F000 к фактической кодовой точке в шрифте (не-Unicode).

В этом случае F06D находится в закрытой области Unicode, поэтому разумно предположить, что он был создан путем добавления F000 к 6D, который является кодовой точкой строчного греческого символа Mu в MS Microsoft Шрифт Symbol.

Чтобы преобразовать его в Unicode, вам нужна таблица, которая показывает эквивалентную кодовую точку Unicode для каждого глифа в шрифте Symbol - например, на этом изображении отображается «Adobe Symbol», которая выглядит в основном те же самые и этот показывает шрифт MS Symbol, но менее полезным способом

Используя первую ссылку, посмотрите вниз в столбце 3, чтобы найти 0x6D, затем получите Unicod Введите кодовую точку U+03BC из столбца 4, затем преобразуйте ее в подходящую HTML сущность: &#x03BC;

, т. е. вам нужно кодировать свою собственную справочную таблицу, которая позволяет вам это делать. Если вам приходится иметь дело с множеством не-Unicode-гарнитур (возможно, Wingdings и т. Д.), Вам также необходимо найти для них Unicode-эквиваленты. Я не сталкивался с какой-либо библиотекой, которая бы это делала, но вы можете найти что-то в Python или что-то, что вы можете конвертировать в любой язык, который вы используете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...