Question

Я создал файл PDF с возможностью поиска, выполнив следующую команду для одного из моих изображений.

tesseract page.jpg test pdf --oem 1 --psm 5 -l urd

это изображение, которое я преобразовал в файл PDF с возможностью поиска.

изображение содержит текст на языке урду, но когда я копирую его из вновь созданного файла PDF и вставляю в любой другой текстовый редактор, это то, что я получаю.

GehbFie ”

любой специалист по оптическому распознаванию текста и кодировке, который может решить мою проблему, пожалуйста, любая помощь будет высоко оценена, спасибо заранее.

Mohammad Moin · Answer 1 · 16 октября 2018

pdf - это имя файла конфигурации.он должен стоять последним в команде, после --oem --psm -l и т. д.

следующий формат команды:

tesseract page.jpg test --oem 1 --psm 5 -l urd pdf

Я решил эту проблему в этомспособ.

текст изменяется, когда я копирую его из PDF-файла с возможностью поиска (созданного командой tesseract) и вставляю в блокнот

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

текст изменяется, когда я копирую его из PDF-файла с возможностью поиска (созданного командой tesseract) и вставляю в блокнот

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы