Каково реалистичное максимальное количество юникод-комбинирующих символов? - PullRequest
0 голосов
/ 10 мая 2018

Я ищу максимальное количество символов объединения юникода, которые появляются после символа не объединения в реалистичном естественном тексте .

Я знаю, что в тексте Unicode может быть произвольное количество комбинаций, помещенных в любом месте текста. Тем не менее, я пишу специализированное приложение, которое должно работать при ограниченных ресурсах, и по этой и другим техническим причинам показ произвольного числа объединяющих символов после некомбинирующего не возможен. Однако я все же хотел бы правильно отображать естественные языки, если это возможно, и поддержка небольшого числа комбинаций не должна быть проблемой.

Моя интуиция в том, что естественным языкам не нужно больше двух-трех комбинаций после правильного символа, но я не уверен и не могу найти источник по этому числу.

1 Ответ

0 голосов
/ 11 мая 2018

Хорошо, из-за отсутствия лучшего ответа, вот что я сделал (для дальнейшего использования в случае необходимости):

В итоге я использовал SmallVec-подобную вещь с порогом 8 байт перед выделением и некоторымиВерхний предел 50 байтов (текст хранится в UTF-8).Это должно сделать всех счастливыми, я думаю, и производительность не пострадает.

Возьмите эти цифры с щепоткой соли, они произвольны, и я мог бы настроить их в любом случае.

...