Python - изображение к тексту в форме пятиугольника в форме пятиугольника - PullRequest
1 голос
/ 23 февраля 2020

Я пытаюсь подготовить рейтинг энергоэффективности из сертификата EP C, используя python. Обычно сертификат EP C поставляется в формате PDF. Я уже конвертировал PDF в изображение и использую pytesseract для получения текста из изображения. Однако я не получаю ожидаемых результатов.

Образец изображения: enter image description here

Ожидаемый результат: Текущий рейтинг: 79, Потенциальный рейтинг: 79

То, что я пробовал до сих пор:

from pdf2image import convert_from_path
import pytesseract
from PIL import Image

pages = convert_from_path(r'my_file.pdf', 500)
img =pages[0].save(r'F:\Freelancer\EPC rating\fwdepcs\out.jpg', 'JPEG')
text = pytesseract.image_to_string(Image.open(r'F:\Freelancer\EPC rating\fwdepcs\out.jpg'))

Однако текст не захватывает 79.

Я также пробовал сопоставление с образцом cv2 и обнаружение формы, но они не работали по другим причинам.

1 Ответ

2 голосов
/ 23 февраля 2020

Вы говорите, что преобразовали этот PDF-файл в файл изображения.

Используйте PIL (.crop ()) или opencv для обрезки изображения. И обрежьте его так:

enter image description here

И используйте PIL Image.convert("1"), возможно, tesseract сможет поймать это число. Если нет, я думаю, вы можете использовать jTessBoxEditor для обучения tesseract.

...