Как мы можем подготовить набор данных из текстовых данных ocr для модели глубокого обучения? - PullRequest
0 голосов
/ 30 апреля 2018

Я попытался преобразовать изображение чека в текст, а его код указан ниже. в питоне 2.7.

Код: -

from PIL import Image
import pytesseract
from pytesseract import image_to_string

image = Image.open('/home/deepak/Documents/BRVm15K.jpg',mode='r')
txt = pytesseract.image_to_string(image,lang="en")
print(txt)

Вывод, что я получил: -

хижина канцелярских товаров Дата / Время: 2009-08-29 10:32

NYC DCA EL # 1371013 EHASD # I47ZBB Касса: Сэм

ОТКРЫТЫЙ ПУНКТ

1 ОЧИСТКА КЛЕЙКОГО КЛЕЯ 1.99 0476432068904

1 ФАЙЛ С РОТАЦИОННОЙ КАРТОЙ 25.95 4329323455094

1 MAXLIFE CYAN TONER @ 18.49 ea 5422636437387 18. 49

1 MAXLIFE DESKTOP LASERJET 2342897237346 149 .67

СУБТОТАЛЬ 197. 10

Налог 18. 31

ИТОГО $ 215,41

Я хочу извлечь интересующую информацию, такую ​​как название организации, дату, описание, общую сумму, из текстовых данных после ocr , используя метод pytesseract.

я выполнил задание изображение в текст данные из изображение квитанции . Так что мое требование к набору данных и как я могу подготовить набор данных для модели обучения глубокому обучению ?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...