Преобразование изображения счета в редактируемый формат - PullRequest
0 голосов
/ 25 мая 2019

Я создаю программное обеспечение для преобразования изображений счетов-фактур в редактируемый формат (преобразование как текстовых, так и табличных данных).До сих пор я нашел контуры в python для преобразования изображения в более мелкие фрагменты, которые помогают в поиске местоположения текста, а Tesseract используется для преобразования этих изображений в текст.

Я извлек текст, но теперь проблема состоит в том, чтобы поместить этот текст в известные позиции в простом блокноте или текстовом документе или любом другом, который вы предлагаете.

Пример счетов-фактур: enter image description here enter image description here

1 Ответ

0 голосов
/ 25 мая 2019

Я бы предложил вам использовать pytesseract его простое оптическое распознавание символов Python. Вот пример кода

import pytesseract
from PIL import Image, ImageEnhance, ImageFilter

im = Image.open("temp.jpg") # the second one 
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save('temp2.jpg')
text = pytesseract.image_to_string(Image.open('temp2.jpg'))
print(text)
...