Распознавание текста таблицы в PDF - PullRequest
0 голосов
/ 29 июня 2018

Как лучше всего извлекать данные из таблиц в формате PDF на русском языке в Java? Ищете SDK или API-решение. На самом деле я пытаюсь использовать инструмент Tabula, но он не работает с отсканированными PDF-файлами. Если единственным способом является OCR с Tesseract, то может быть он может быть настроен для работы с таблицами. Так есть ли решения или лучшие практики?

1 Ответ

0 голосов
/ 29 июня 2018

Если формат таблицы предсказуемый, а PDF хорошего качества, то вы можете конвертировать страницы PDF в .tiff файлы с 300 density и 8 depth, используя ImageMagick . Затем вы можете обрезать текстовую часть, которую вы хотите OCR.

Другой вариант - удалить саму таблицу с изображения и оставить только текст. Я сделал это один раз, но он работал хуже, чем первый вариант.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...