Согласно соответствующему стандарту для формата .docx (ISO / IEC STANDARD 29500-1), в элементе <sym>
значение атрибута w:char="F06D"
означает либо
, что символ является символом Unicode F06D или
, что F06D был создан путем добавления F000 к фактической кодовой точке в шрифте (не-Unicode).
В этом случае F06D находится в закрытой области Unicode, поэтому разумно предположить, что он был создан путем добавления F000 к 6D, который является кодовой точкой строчного греческого символа Mu в MS Microsoft Шрифт Symbol.
Чтобы преобразовать его в Unicode, вам нужна таблица, которая показывает эквивалентную кодовую точку Unicode для каждого глифа в шрифте Symbol - например, на этом изображении отображается «Adobe Symbol», которая выглядит в основном те же самые и этот показывает шрифт MS Symbol, но менее полезным способом
Используя первую ссылку, посмотрите вниз в столбце 3, чтобы найти 0x6D, затем получите Unicod Введите кодовую точку U+03BC
из столбца 4, затем преобразуйте ее в подходящую HTML сущность: μ
, т. е. вам нужно кодировать свою собственную справочную таблицу, которая позволяет вам это делать. Если вам приходится иметь дело с множеством не-Unicode-гарнитур (возможно, Wingdings и т. Д.), Вам также необходимо найти для них Unicode-эквиваленты. Я не сталкивался с какой-либо библиотекой, которая бы это делала, но вы можете найти что-то в Python или что-то, что вы можете конвертировать в любой язык, который вы используете.