Как извлечь диаграммы / таблицы / графики из файлов PDF с помощью Python? - PullRequest
1 голос
/ 29 апреля 2019

Искал совсем немного, но так как я не мог найти решение для такого рода проблемы, следовательно, опубликовал четкий вопрос по тому же вопросу. Большинство ответов касаются извлечения изображений и текста, которые сравнительно проще.

У меня есть требование извлекать таблицы и графики в виде текста (CSV) и изображений соответственно из PDF-файлов.

Может кто-нибудь помочь мне с эффективным кодом Python 3.6, чтобы решить то же самое?

До сих пор я мог добиться извлечения jpgs, используя startmark = b "\ xff \ xd8" и endmark = b "\ xff \ xd9", но не все таблицы и графики в PDF являются обычными jpgs, поэтому мой код плохо работает в достижение этого.

Например, я хочу извлечь таблицу со страницы 11 и графики со страницы 12 в виде изображения или чего-либо, что возможно по приведенной ниже ссылке. Как это сделать?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

1 Ответ

0 голосов
/ 29 апреля 2019

Для извлечения таблиц вы можете использовать camelot

Вот статья об этом.

Для изображений я нашел этот вопрос и ответ Извлекать изображения из PDF без передискретизации в python?

...