Преобразование отсканированной таблицы PDF в Excel - PullRequest
0 голосов
/ 20 июня 2019

У меня есть отсканированный PDF, в котором есть некоторые случайные данные в табличном формате, и я хочу скопировать их в лист Excel.

Я поиграл с цифровыми PDF-файлами и использую «tabula» для извлечения таблиц, но отсканированные PDF-файлы требуют OCR (что я видел в Google).Я знаю, что здесь задействовано OCR (тессеракт), но не знаю, какой подход я должен использовать для решения проблемы.

Ответы [ 2 ]

0 голосов
/ 23 июня 2019

Бесплатный OCR API имеет режим распознавания таблиц .

В OCR API переключатель isTable = true запускает логику сканирования таблицы. Более подробная информация доступна в разделе таблицы OCR flag документации OCR API.

Код Python здесь

0 голосов
/ 23 июня 2019

Посмотрите на выходной формат Tesseract TSV (Tab Separated Value) и посмотрите, сможет ли Excel его прочитать или импортировать. Может потребоваться некоторое преобразование, чтобы преобразовать его в формат, который можно использовать в Excel.

https://digi.bib.uni -mannheim.de / тессеракт / Инструкции / tesseract.1.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...