Искал совсем немного, но так как я не мог найти решение для такого рода проблемы, следовательно, опубликовал четкий вопрос по тому же вопросу. Большинство ответов касаются извлечения изображений и текста, которые сравнительно проще.
У меня есть требование извлекать таблицы и графики в виде текста (CSV) и изображений соответственно из PDF-файлов.
Может кто-нибудь помочь мне с эффективным кодом Python 3.6, чтобы решить то же самое?
До сих пор я мог добиться извлечения jpgs, используя startmark = b "\ xff \ xd8" и endmark = b "\ xff \ xd9", но не все таблицы и графики в PDF являются обычными jpgs, поэтому мой код плохо работает в достижение этого.
Например, я хочу извлечь таблицу со страницы 11 и графики со страницы 12 в виде изображения или чего-либо, что возможно по приведенной ниже ссылке. Как это сделать?
https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf