Как извлечь данные из PDF-файла изображения с координатами? - PullRequest
0 голосов
/ 02 июля 2019

Как извлечь текст из файла изображения PDF с помощью координат, используя python и его внешние библиотеки.

from wand.image import Image as wi
from PIL import Image

pdf = wi (filename=("F:\cng-example-bill.pdf")
pdfImg = pdf.convert('jpg')
crop_img = pdfImg.crop((35, 20, 40, 35))
print(crop_imp)

фрагмент кода, который пытается преобразовать PDF-файл в файл jpg, из jpg, который пытается извлечь данные на основе координат.Программа должна выдавать выходные данные (данные) на основе координат файла изображения

1 Ответ

0 голосов
/ 08 июля 2019

Строка pdf.convert('jpg') просто клонирует стек и устанавливает свойство формата. pdfImg.crop возвращает True в случае успеха и не возвращает никаких данных. Вы можете переписать фрагмент как ...

from wand.image import Image as wi

pdf = wi(filename=("F:\cng-example-bill.pdf[0]")
pdf.crop(left=35, top=20, width=40, height=35)
crop_img = pdf.make_blob('jpg')

Обратите внимание, что "F:\cng-example-bill.pdf[0]" декодирует только первую страницу PDF, а область кадрирования представляет собой область 40x35+35+20. crop_img - это данные файла JPG, а не данные пикселей или данные в формате PDF.

...