В этом вопросе, MKL дает фантастический c ответ на затруднительное положение pnj. К сожалению, мы сталкиваемся с очень похожей проблемой (с другим шрифтом, называемым Lohit - Devanagari , но все еще шрифтом Devanagari). второй комментарий описывает не-OCR решение прекрасно, но я страдаю от огромного пробела в моем понимании PDF-файлов и их структуры. Таким образом, было бы здорово, если бы какое-то направление можно было указать в терминах следующего:
- перезаписать карту ToUnicode в этом PDF-файле, используя универсальную библиотеку PDF с низкоуровневым объектом API доступа к языку программирования по вашему выбору : Какую библиотеку в Python можно использовать для этого?
- обход структуры объекта PDF, поиск ToUnicode Поток карты, заменив его содержимое и сохранив результат. : Есть ли какой-нибудь пример, где я могу увидеть, как именно это делается для любого шрифта?
Я надеюсь, что это не слишком широко. Спасибо!