Искать текст в неструктурированных данных - PullRequest
0 голосов
/ 19 июня 2020

Я работал над частью кода для чтения текста с изображений, используя python. Изображения счетов-фактур.

import pytesseract as tess
tess.pytesseract.tesseract_cmd = r'C:\Users\Me\AppData\Local\Tesseract-OCR\tesseract.exe'
from PIL import Image

img = Image.open('C:/Users/Me/Desktop/PM/Invoice Formats/TestInv.png')


text = tess.image_to_string(img)
print(text)

Результатом кода является текст счета-фактуры. У меня есть несколько счетов в разных форматах. Может ли кто-нибудь помочь мне, как извлечь номер счета-фактуры, дату счета-фактуры и сумму счета-фактуры из этого неструктурированного текста? Для других это другое

ABC Manufacturing Corporation





Invoice 1111 HHH BBB
‘MyCity, AB'11111-111'
(111)111-1111
My exporter details
\xyz.com
Page: 1 of 2
invoice No, b123456
Date: 01/02/2019,
‘My Oil Products My Bill-To No. 3333
PO Box 1234, Account Number.: 12345
sdlfjsdlf slsdo

Invoice Summary

Delivery Terms:
Payment Terms:
Contact:

DELIVERY POINT
Net 20 days date of invoice
MY NAME

111-111-1111

111-111-1111
abc@xyz.com
Copies of Invoices and Delivery Notes are available on
my url/ check site/ here.

Hf you have any, further questions relating to, your Invoice,
lease contact MY NAME immediately on
111111111







Quantity - Price uni





1000 KG KM = 1000M — KG = Kilogram
Hours Litre M3 = Cubic meter
EA = Each) Normal Cubic Meter
Pounds 7OF, 1atm)











Product Price |
Product Price 1000.28
Net value 1000.28
Total to be paid INR 80000.28

Thnx заранее.

1 Ответ

0 голосов
/ 19 июня 2020

Позвольте мне показать вам пример для извлечения даты, затем вы можете экстраполировать для извлечения других:

date = text.split('Date: ')[1].split(',')[0]
print(date)

'01 / 02/2019 '

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...