Как проверить, правильно ли выполнены Encoding и ToUnicode для PDF? - PullRequest
0 голосов
/ 21 декабря 2018

Я использую qpdf , чтобы проверить, правильно ли заданы (закодированы) кодировка и toUnicode для pdf с помощью следующей команды и найдите слово «ToUnicode» в текстовом файле.Цель состоит в том, чтобы убедиться, что лигатура в файле может быть правильно декодирована в средстве просмотра PDF, таком как Adobe Acrobat Reader, pdf.js, pdfium и т. Д.

Интересно, это правильный путь?Что рекомендуется?

qpdf --stream-data=uncompress input.pdf output.txt

Спасибо.

1 Ответ

0 голосов
/ 22 декабря 2018

Это довольно сложная задача.

Ваш документ может содержать несколько шрифтов, некоторые с картой ToUnicode, а некоторые без нее, и все они могут быть действительными.

Тогда для шрифтов, которыевключив карту ToUnicode, вы должны проверить, что все идентификаторы символов, используемые с этим шрифтом, также присутствуют в карте ToUnicode.

И последний шаг - убедиться, что каждый идентификатор символа сопоставлен с правильным символом (символы для лигатуры).).Это невозможно сделать автоматически, потому что вы не знаете, какой символ представлен каким-либо идентификатором.Например, глиф «A» представлен символом id 1, когда текст отображается на странице.Но в ToUnicode cmap символ 1 отображается на символ «B».Это логическая ошибка, которую нельзя проверить автоматически.

...