Получение текста из изображения плана этажа с помощью pytesseract - PullRequest
0 голосов
/ 24 августа 2018

У меня есть база данных изображений .jpg, .pdf и .png, которые представляют планы домов.Я пытаюсь использовать pytesseract для извлечения текста из изображений - с целью получения общей площади каждого дома (кв. Фут или кв. М).

Я новичок в pytesseract и попробовал несколько различных способов изменения изображения, приведенного ниже, перед применением функции image_to_string, но каждый раз результат действительно неточен.Для некоторых других домов, которые я пробовал, это сработало отлично.Вот основная функция без какого-либо изменения изображения:

def simple_url_to_text(url):
    urllib.urlretrieve(url, "url_test.jpg")
    im = Image.open("url_test.jpg") 
    text = pytesseract.image_to_string(im)
    return text

Эта функция отлично работает для этого URL ...

https://lc.zoocdn.com/8487827a2ea1536001fcf007c6aa1fb04c2ed0b5.jpg

Но очень плохо для этогоone ... https://lc.zoocdn.com/e57c5a06c2c64904c077a0736e797ea7a6a71597.jpg

Любые советы о том, как я мог бы изменить функцию, чтобы она работала на втором URL, были бы очень благодарны.

...