Как повысить точность при чтении текстов внутри строк из табличного изображения PDF с помощью тессеракта? - PullRequest
1 голос
/ 28 мая 2019

Я извлекаю тексты из pdf табличного изображения, используя Tesseract, превращая его в сэндвич-pdf. Для сэндвича pdf я использую OCRMYPDF .

Я пытаюсь с

Ubuntu 18.04
tesseract 4.0.0-beta.1
лептоника-1,75,3

Вот ссылка pdf Я пытался конвертировать. Вот полученный сэндвич pdf . Команды, которые я использовал для преобразования в сэндвич pdf.

ocrmypdf --output-type pdf --pdf-renderer --tesseract-pagesegmode 6 sandwich test.pdf test_sw.pdf

Результирующая точность OCRMYPDF очень низкая. Он не может распознать много столбцов, и было много орфографических ошибок.

После преобразования в сэндвич-PDF я использую pdftabextract для извлечения данных из сэндвич-PDF.

Из-за низкой точности не удается извлечь данные из сэндвича pdf.

Как улучшить точность Тессеракта для распознавания текста лучше в этих сценариях?

Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...