Есть ли свойство в Tesseract OCR для поиска строки и удаления страницы из PDF? - PullRequest
0 голосов
/ 20 сентября 2018

Я пытался преобразовать изображение PDF в текст PDF в программе Tesseract OCR.Между ними мне нужно проверить обложку и удалить ее из результата.Возможно ли в самом OCR Tessaract идентифицировать титульную страницу на основе определенных свойств титульной страницы (сопоставление текста титульной страницы).или я должен взять весь вывод результатов оптического распознавания текста и предоставить свою логику для сканирования PDF и удаления титульной страницы.Я полностью сбит с толку, и любая помощь будет оценена.

1 Ответ

0 голосов
/ 20 сентября 2018

Для Тессеракта нет способа сделать это, вы должны заранее удалить страницу и затем передать изображение PDF в OCR.

Есть хороший ответ о том, как сделать то, что я вам сказал, на https://stackoverflow.com/a/11541587/9740486

...