текст изменяется, когда я копирую его из PDF-файла с возможностью поиска (созданного командой tesseract) и вставляю в блокнот - PullRequest
0 голосов
/ 04 октября 2018

Я создал файл PDF с возможностью поиска, выполнив следующую команду для одного из моих изображений.

tesseract page.jpg test pdf --oem 1 --psm 5 -l urd

это изображение, которое я преобразовал в файл PDF с возможностью поиска.enter image description here

изображение содержит текст на языке урду, но когда я копирую его из вновь созданного файла PDF и вставляю в любой другой текстовый редактор, это то, что я получаю.

GehbFie ”

любой специалист по оптическому распознаванию текста и кодировке, который может решить мою проблему, пожалуйста, любая помощь будет высоко оценена, спасибо заранее.

1 Ответ

0 голосов
/ 16 октября 2018

pdf - это имя файла конфигурации.он должен стоять последним в команде, после --oem --psm -l и т. д.

следующий формат команды:

tesseract page.jpg test --oem 1 --psm 5 -l urd pdf

Я решил эту проблему в этомспособ.

...