Перезапись потока карты ToUnicode в PDF - PullRequest
1 голос
/ 21 марта 2020

В этом вопросе, MKL дает фантастический c ответ на затруднительное положение pnj. К сожалению, мы сталкиваемся с очень похожей проблемой (с другим шрифтом, называемым Lohit - Devanagari , но все еще шрифтом Devanagari). второй комментарий описывает не-OCR решение прекрасно, но я страдаю от огромного пробела в моем понимании PDF-файлов и их структуры. Таким образом, было бы здорово, если бы какое-то направление можно было указать в терминах следующего:

  1. перезаписать карту ToUnicode в этом PDF-файле, используя универсальную библиотеку PDF с низкоуровневым объектом API доступа к языку программирования по вашему выбору : Какую библиотеку в Python можно использовать для этого?
  2. обход структуры объекта PDF, поиск ToUnicode Поток карты, заменив его содержимое и сохранив результат. : Есть ли какой-нибудь пример, где я могу увидеть, как именно это делается для любого шрифта?

Я надеюсь, что это не слишком широко. Спасибо!

...