Лигатуры - это символы Unicode, которые представлены более чем одной кодовой точкой.Например, в Деванагари त्र
- это лигатура, состоящая из кодовых точек त + ् + र
.
При просмотре в простых редакторах текстовых файлов, таких как Блокнот, त्र
отображается как त् + र
и сохраняется в виде трех символов Юникода.Однако, когда тот же файл открывается в Firefox, он отображается как правильная лигатура.
Поэтому мой вопрос заключается в том, как программно обнаруживать такие лигатуры при чтении файла из моего кода.Поскольку Firefox делает это, должен существовать способ сделать это программно.Существуют ли какие-либо свойства Unicode, которые содержат эту информацию, или мне нужно иметь карту для всех таких лигатур?
Свойство SVG CSS text-rendering
, когда установлено optimizeLegibility
, делает то же самое(объединить кодовые точки в правильную лигатуру).
PS: я использую Java.
РЕДАКТИРОВАТЬ
Цель моего кода - подсчитатьсимволы в тексте Unicode, предполагающие, что лигатура представляет собой один символ.Поэтому мне нужен способ свести несколько точек кода в одну лигатуру.