Я пытаюсь подготовить рейтинг энергоэффективности из сертификата EP C, используя python. Обычно сертификат EP C поставляется в формате PDF. Я уже конвертировал PDF в изображение и использую pytesseract для получения текста из изображения. Однако я не получаю ожидаемых результатов.
Образец изображения:
Ожидаемый результат: Текущий рейтинг: 79, Потенциальный рейтинг: 79
То, что я пробовал до сих пор:
from pdf2image import convert_from_path
import pytesseract
from PIL import Image
pages = convert_from_path(r'my_file.pdf', 500)
img =pages[0].save(r'F:\Freelancer\EPC rating\fwdepcs\out.jpg', 'JPEG')
text = pytesseract.image_to_string(Image.open(r'F:\Freelancer\EPC rating\fwdepcs\out.jpg'))
Однако текст не захватывает 79.
Я также пробовал сопоставление с образцом cv2 и обнаружение формы, но они не работали по другим причинам.