Я работал над частью кода для чтения текста с изображений, используя python. Изображения счетов-фактур.
import pytesseract as tess
tess.pytesseract.tesseract_cmd = r'C:\Users\Me\AppData\Local\Tesseract-OCR\tesseract.exe'
from PIL import Image
img = Image.open('C:/Users/Me/Desktop/PM/Invoice Formats/TestInv.png')
text = tess.image_to_string(img)
print(text)
Результатом кода является текст счета-фактуры. У меня есть несколько счетов в разных форматах. Может ли кто-нибудь помочь мне, как извлечь номер счета-фактуры, дату счета-фактуры и сумму счета-фактуры из этого неструктурированного текста? Для других это другое
ABC Manufacturing Corporation
Invoice 1111 HHH BBB
‘MyCity, AB'11111-111'
(111)111-1111
My exporter details
\xyz.com
Page: 1 of 2
invoice No, b123456
Date: 01/02/2019,
‘My Oil Products My Bill-To No. 3333
PO Box 1234, Account Number.: 12345
sdlfjsdlf slsdo
Invoice Summary
Delivery Terms:
Payment Terms:
Contact:
DELIVERY POINT
Net 20 days date of invoice
MY NAME
111-111-1111
111-111-1111
abc@xyz.com
Copies of Invoices and Delivery Notes are available on
my url/ check site/ here.
Hf you have any, further questions relating to, your Invoice,
lease contact MY NAME immediately on
111111111
Quantity - Price uni
1000 KG KM = 1000M — KG = Kilogram
Hours Litre M3 = Cubic meter
EA = Each) Normal Cubic Meter
Pounds 7OF, 1atm)
Product Price |
Product Price 1000.28
Net value 1000.28
Total to be paid INR 80000.28
Thnx заранее.