Я пытаюсь получить выделенный текст, ограничивающий прямоугольник на изображении.например, если только слово выбрано ограничивающим прямоугольником, и я хочу извлечь этот текст и преобразовать его в текстовый файл.Пожалуйста, ознакомьтесь с моим кодом и дайте обзор, чтобы я мог реализовать эту функцию.
Пока что я сделал, я преобразовал PDF-файл в изображение с ограничительной рамкой над текстом.
import numpy as np
import csv
import io
from PIL import Image
import pytesseract
from wand.image import Image as wi
from pytesseract import Output
import cv2
pdf = wi(filename="samplecompany.pdf", resolution=100)
pdfImg = pdf.convert('jpg')
j = 1
for img in pdfImg.sequence:
page = wi(image=img)
page.save(filename=str(j)+".jpg")
img1 = cv2.imread(str(j)+".jpg")
d = pytesseract.image_to_data(img1, output_type=Output.DICT)
n_boxes = len(d['level'])
print(n_boxes)
for i in range(n_boxes):
(x, y, w, h) = (d['left'][i], d['top']
[i], d['width'][i], d['height'][i])
print((x, y, w, h))
cv2.rectangle(img1, (x, y), (x + w, y + h), (0, 255, 0), 2)
cv2.imwrite(str(j)+".jpg", img1)
cv2.waitKey(0)
j += 1
этот код работает нормально. Мне нужно извлечь нужный текст из изображений, которые я создал. Используя расположение ограничительной рамки