Какими способами можно извлечь таблицы без какой-либо сетки из PDF-файлов в Python? - PullRequest
0 голосов
/ 14 июня 2019

Я работаю над проектом, который требует от меня автоматизации задачи извлечения данных из таблиц в pdf-файле. Я использую Python для этого проекта.

Мне интересно, есть ли лучший способ решить эту проблему.

Я уже использовал tabula, однако, если таблица не имеет четких сеток, tabula не работает должным образом.

Я думаю об использовании Open CV, чтобы нарисовать сетки вокруг таблиц и ячеек, а затем использовать OCR для извлечения данных из файлов.

Вот пример страницы в формате pdf, которую я пытаюсь извлечь из таблиц

1 Ответ

0 голосов
/ 17 июня 2019

Как я заметил, вы имеете дело с цифровыми PDF-файлами (не отсканированными).Если вы все еще хотели бы изучить некоторые возможности решения вашей проблемы без использования оптического распознавания символов, вот вы:

  • Camelot - средство извлечения табличных данных .Эта библиотека хороша для работы с «плохими» таблицами без четких сеток.

  • Вы также можете рассмотреть возможность преобразования вашего PDF в текст с помощью pdftotext , а затем проанализировать его с помощью Python.

...