Направление текста PDF - PullRequest
       41

Направление текста PDF

1 голос
/ 01 февраля 2012

Как направление текста для языков справа налево, таких как арабский, закодировано в PDF? Насколько я понимаю, поскольку PDF по сути является графическим форматом, концепция направления текста не нуждается в кодировании. Скорее, глифы просто нужно нарисовать на экране справа налево. Однако в справочном руководстве PDF упоминается атрибут с именем WritingMode, в котором можно указывать комбинации слева направо, справа налево и сверху вниз, снизу вверх.

Итак, мои вопросы:

(1) Если мое понимание верно, а RTL или LTR просто выражены способом, которым символы отображаются на экране, в чем смысл атрибута WritingMode?

(2) Если нет фактической информации о направленности, закодированной в файле PDF, кроме порядка рисования глифов, как программа PDF-to-Text узнает, должна ли быть прочитана данная строка справа от -лево или слева направо? (Я полагаю, что программа PDF могла бы просто проверить, попадают ли кодовые точки Unicode, извлеченные из карты ToUnicode, в диапазон, соответствующий языку RTL.)

Ответы [ 2 ]

0 голосов
/ 02 февраля 2012

Направление текста будет установлено в Trm

0 голосов
/ 02 февраля 2012

WritingMode только для Tagged PDF, если я правильно читаю спецификации. Если PDF не содержит соответствующей логической структуры, вы не получите WritingMode.

Общий ответ, насколько я понимаю, «это зависит». При написании R-L у вас, вероятно, есть информация о продвижении текста, закодированная в шрифте, и одиночное размещение текста переместит текст в нужное место. Я говорю «вероятно», потому что может случиться так, что реальное программное обеспечение для генерации игнорирует это и размещает каждый глиф отдельно, независимо от продвижения текста в шрифте. Тогда вы получите забавные языки, такие как арабский и иврит, которые не являются строго R-L, поскольку числа по-прежнему L-R в строке R-L.

...