Я извлекаю тексты из pdf табличного изображения, используя Tesseract, превращая его в сэндвич-pdf. Для сэндвича pdf я использую OCRMYPDF .
Я пытаюсь с
Ubuntu 18.04
tesseract 4.0.0-beta.1
лептоника-1,75,3
Вот ссылка pdf Я пытался конвертировать. Вот полученный сэндвич pdf .
Команды, которые я использовал для преобразования в сэндвич pdf.
ocrmypdf --output-type pdf --pdf-renderer --tesseract-pagesegmode 6 sandwich test.pdf test_sw.pdf
Результирующая точность OCRMYPDF очень низкая. Он не может распознать много столбцов, и было много орфографических ошибок.
После преобразования в сэндвич-PDF я использую pdftabextract для извлечения данных из сэндвич-PDF.
Из-за низкой точности не удается извлечь данные из сэндвича pdf.
Как улучшить точность Тессеракта для распознавания текста лучше в этих сценариях?
Заранее спасибо.