Проблемы при разборе PDF с Python с пользовательскими шрифтами - PullRequest
0 голосов
/ 27 октября 2018

Я пытаюсь выполнить задачу, в которой мне нужно проанализировать несколько PDF-файлов на языке маратхи, написанных с использованием различных пользовательских шрифтов (большинство из которых лицензированы Microsoft - Mangal, Kokila, Arial Unicode MS и т. Д. Среди немногих).Я использую инструмент pdfminer, который не может полностью восстановить символ pdf по символам. В качестве примера слово, прикрепленное на изображении ниже, когда я выполняю синтаксический анализ, оказывается проанализированным с отдельными символами, которые анализируются как ['इ', 'ल', 'े', 'ह', 'र', ट्र ',' क ',' ल् ',' स ',' च ',' ां '] и редакторы печатаются как' इलेहरट्रकल्सचां ', что неверно.На самом деле мне пришлось приложить изображение, чтобы изобразить, что это слово на самом деле, потому что даже если я скопирую его прямо из pdf, оно будет отображаться как «इलेहर क सच».Как я могу выполнить задачу правильного анализа?Если кто-то не знает ответа, даже несколько идей было бы полезно.

Image to show actual word

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...