Извлечь таблицу с невидимыми строками из PDF - PullRequest
0 голосов
/ 28 сентября 2018

Постановка задачи:

У меня есть PDF, структура которого похожа на таблицы, но строки не видны.Ниже приведен пример:

Sample Table

На рисунке выше показано, как выглядит моя таблица на одной из страниц PDF.

Мои исследования

  1. Как извлечь таблицу в виде текста из PDF с помощью Python? - Прошел этот вопрос и увидел все ответы.Бесполезно

  2. Tabula : пробовал tabula API, но он только извлекает заголовки, а не текст, вероятно, из-за отсутствия строк.

  3. Я могу преобразовать весь PDF в текст, а затем попытаться извлечь его с помощью регулярных выражений или манипуляций с данными.Но это может быть очень утомительно и требует много времени.Кроме того, поскольку PDF-файл изменяется, все кодирование должно быть выполнено снова.

Ask

Является ли это любым пакетом API или Python, который может помочьмне сделать это ( Windows и Python 3.x )?

1 Ответ

0 голосов
/ 29 сентября 2018

Вам нужно использовать пакет, который дает вам x- и y-координаты текста в PDF. PyMuPDF или pdfminer будут моими предложениями.Затем вам нужно будет программно определить, в какой строке и столбце находится каждый текстовый блок, с которым вы столкнулись.

...