Question

У меня есть отсканированный PDF, в котором есть некоторые случайные данные в табличном формате, и я хочу скопировать их в лист Excel.

Я поиграл с цифровыми PDF-файлами и использую «tabula» для извлечения таблиц, но отсканированные PDF-файлы требуют OCR (что я видел в Google).Я знаю, что здесь задействовано OCR (тессеракт), но не знаю, какой подход я должен использовать для решения проблемы.

Jim Grigoryan · Answer 1 · 23 июня 2019

Бесплатный OCR API имеет режим распознавания таблиц .

В OCR API переключатель isTable = true запускает логику сканирования таблицы. Более подробная информация доступна в разделе таблицы OCR flag документации OCR API.

Код Python здесь

nguyenq · Answer 2 · 23 июня 2019

Посмотрите на выходной формат Tesseract TSV (Tab Separated Value) и посмотрите, сможет ли Excel его прочитать или импортировать. Может потребоваться некоторое преобразование, чтобы преобразовать его в формат, который можно использовать в Excel.

https://digi.bib.uni -mannheim.de / тессеракт / Инструкции / tesseract.1.html

Преобразование отсканированной таблицы PDF в Excel

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Преобразование отсканированной таблицы PDF в Excel

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы