PDF извлечение текста - PullRequest
3 голосов
/ 23 мая 2010
3 begincidrange 
<20> <7e> 1 
<8140> <817e> 633 
<8180> <81ac> 696 
endcidrange 

Это образец файла CMAP.

  1. Как создать CMAP для своих собственных данных?
  2. Что такое 3 в 3 begincidrange
  3. что такое <20> <7e>?может кто-нибудь привести пример

1 Ответ

2 голосов
/ 24 мая 2010

Ваша таблица CMap устанавливает весь код символа для сопоставления CID.

Число, которое появляется перед оператором begincidrange, указывает номер отображения линий. Оператор endcidrange завершает блок отображений.

Строки между begincidrange и endcidrange содержат сопоставления. Есть 3 записи для каждой строки. Первые два определяют диапазон кодов символов, а третий - значение CID, которому они соответствуют.

Значит, коды символов от 0x20 до 0x7e соответствуют CID 1.

Adobe Technote 5099 описывает формат таблиц CID.

...