Question

Я пытался преобразовать изображение PDF в текст PDF в программе Tesseract OCR.Между ними мне нужно проверить обложку и удалить ее из результата.Возможно ли в самом OCR Tessaract идентифицировать титульную страницу на основе определенных свойств титульной страницы (сопоставление текста титульной страницы).или я должен взять весь вывод результатов оптического распознавания текста и предоставить свою логику для сканирования PDF и удаления титульной страницы.Я полностью сбит с толку, и любая помощь будет оценена.

Enashgrow · Answer 1 · 20 сентября 2018

Для Тессеракта нет способа сделать это, вы должны заранее удалить страницу и затем передать изображение PDF в OCR.

Есть хороший ответ о том, как сделать то, что я вам сказал, на https://stackoverflow.com/a/11541587/9740486

Есть ли свойство в Tesseract OCR для поиска строки и удаления страницы из PDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли свойство в Tesseract OCR для поиска строки и удаления страницы из PDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы