Чтобы найти «специальные» символы, вы можете использовать ord
, чтобы найти кодовую точку. Вот пример:
# Create a Unicode test file with some Latin chars, some Cyrillic,
# and some outside the BMP.
# The BMP is the basic multilingual plane, see perluniintro.
# (Not sure what you mean by saying "non-basic".)
perl -CO -lwe "print join '', map chr, 97 .. 100, 0x410 .. 0x415, 0x10000 .. 0x10003" > u.txt
# Read it and find codepoints outside the BMP.
perl -CI -nlwe "print for map ord, grep ord > 0xffff, split //" < u.txt
Хорошее введение вы можете получить, прочитав perluniintro .
Я не уверен, что означают документы в разделе «Экспортированный XML».
Похоже на некоторое ограничение системы, которая де-факто является ASCII и не поддерживает Unicode.
Или недопонимание XML. Или оба.
В любом случае, если вы ищете имена, вы можете использовать или ссылаться на канонические.
См. Определения сущностей XML для символов или один из более старых документов для HTML или MathML, на которые есть ссылки.