Вы можете использовать каноническое отображение декомпозиции, предоставляемое фондом Unicode (файлы в http://www.unicode.org/Public/UNIDATA/).
Однако, это не так просто, как кажется, - верьте в этоили нет, существует символ «ккал», каноническая декомпозиция которого имеет длину четыре символа.
Вы также можете обратиться к таблицам числовых эквивалентов, поскольку «обведенное число семь», вероятно, должно соответствовать цифре ASCII.семь и т. д.
Однако я настоятельно советую не использовать эту стратегию - вы вырезаете свой текст для небольшой выгоды и не можете восстановить исходный ввод, как только вы его преобразовали.