Question

Я пытаюсь выполнить задачу, в которой мне нужно проанализировать несколько PDF-файлов на языке маратхи, написанных с использованием различных пользовательских шрифтов (большинство из которых лицензированы Microsoft - Mangal, Kokila, Arial Unicode MS и т. Д. Среди немногих).Я использую инструмент pdfminer, который не может полностью восстановить символ pdf по символам. В качестве примера слово, прикрепленное на изображении ниже, когда я выполняю синтаксический анализ, оказывается проанализированным с отдельными символами, которые анализируются как ['इ', 'ल', 'े', 'ह', 'र', ट्र ',' क ',' ल् ',' स ',' च ',' ां '] и редакторы печатаются как' इलेहरट्रकल्सचां ', что неверно.На самом деле мне пришлось приложить изображение, чтобы изобразить, что это слово на самом деле, потому что даже если я скопирую его прямо из pdf, оно будет отображаться как «इलेहर क सच».Как я могу выполнить задачу правильного анализа?Если кто-то не знает ответа, даже несколько идей было бы полезно.

Проблемы при разборе PDF с Python с пользовательскими шрифтами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Проблемы при разборе PDF с Python с пользовательскими шрифтами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов