У меня есть база данных изображений .jpg, .pdf и .png, которые представляют планы домов.Я пытаюсь использовать pytesseract для извлечения текста из изображений - с целью получения общей площади каждого дома (кв. Фут или кв. М).
Я новичок в pytesseract и попробовал несколько различных способов изменения изображения, приведенного ниже, перед применением функции image_to_string, но каждый раз результат действительно неточен.Для некоторых других домов, которые я пробовал, это сработало отлично.Вот основная функция без какого-либо изменения изображения:
def simple_url_to_text(url):
urllib.urlretrieve(url, "url_test.jpg")
im = Image.open("url_test.jpg")
text = pytesseract.image_to_string(im)
return text
Эта функция отлично работает для этого URL ...
https://lc.zoocdn.com/8487827a2ea1536001fcf007c6aa1fb04c2ed0b5.jpg
Но очень плохо для этогоone ... https://lc.zoocdn.com/e57c5a06c2c64904c077a0736e797ea7a6a71597.jpg
Любые советы о том, как я мог бы изменить функцию, чтобы она работала на втором URL, были бы очень благодарны.