Как направление текста для языков справа налево, таких как арабский, закодировано в PDF? Насколько я понимаю, поскольку PDF по сути является графическим форматом, концепция направления текста не нуждается в кодировании. Скорее, глифы просто нужно нарисовать на экране справа налево. Однако в справочном руководстве PDF упоминается атрибут с именем WritingMode
, в котором можно указывать комбинации слева направо, справа налево и сверху вниз, снизу вверх.
Итак, мои вопросы:
(1) Если мое понимание верно, а RTL или LTR просто выражены способом, которым символы отображаются на экране, в чем смысл атрибута WritingMode
?
(2) Если нет фактической информации о направленности, закодированной в файле PDF, кроме порядка рисования глифов, как программа PDF-to-Text узнает, должна ли быть прочитана данная строка справа от -лево или слева направо? (Я полагаю, что программа PDF могла бы просто проверить, попадают ли кодовые точки Unicode, извлеченные из карты ToUnicode
, в диапазон, соответствующий языку RTL.)