Я попытался преобразовать изображение чека в текст, а его код указан ниже.
в питоне 2.7.
Код: -
from PIL import Image
import pytesseract
from pytesseract import image_to_string
image = Image.open('/home/deepak/Documents/BRVm15K.jpg',mode='r')
txt = pytesseract.image_to_string(image,lang="en")
print(txt)
Вывод, что я получил: -
хижина канцелярских товаров
Дата / Время: 2009-08-29 10:32
NYC DCA EL # 1371013 EHASD # I47ZBB
Касса: Сэм
ОТКРЫТЫЙ ПУНКТ
1 ОЧИСТКА КЛЕЙКОГО КЛЕЯ 1.99
0476432068904
1 ФАЙЛ С РОТАЦИОННОЙ КАРТОЙ 25.95
4329323455094
1 MAXLIFE CYAN TONER @ 18.49 ea
5422636437387 18. 49
1 MAXLIFE DESKTOP LASERJET
2342897237346 149 .67
СУБТОТАЛЬ 197. 10
Налог 18. 31
ИТОГО $ 215,41
Я хочу извлечь интересующую информацию, такую как название организации, дату, описание, общую сумму, из текстовых данных после ocr , используя метод pytesseract.
я выполнил задание изображение в текст данные из изображение квитанции . Так что мое требование к набору данных и как я могу подготовить набор данных для модели обучения глубокому обучению ?