Поезд Тессеракта. Файлы - PullRequest
0 голосов
/ 26 февраля 2020

Я нахожусь в процессе создания пользовательского приложения для оптического распознавания символов в верхней части Tesseract. Я все еще занимаюсь исследованиями и разработками, и я застрял с проблемой подготовки многостраничного документа формата TIFF для извлечения из него определенных c полей, как я можно этого добиться? как только он будет обучен, следующий документ будет извлечен автоматически, или нам потребуется ручное вмешательство?

Извините, я все еще на уровне НИОКР. Я не занимался кодированием, я много гуглил, но не сделал в состоянии найти правильное решение, пожалуйста, помогите мне решить эту проблему заранее Спасибо !!!

1 Ответ

0 голосов
/ 26 февраля 2020

Я использую PIL для чтения tiff в ImageSequence, затем обрабатываю страницы по отдельности, потому что это может быть сделано параллельно при необходимости.

from PIL import Image, ImageSequence
import pytesseract

im = Image.open(filename)
pages = ImageSequence.Iterator(im)
# n_pages = im.n_frames
for page in in pages:
    im = im.convert('L')
    pytesseract.image_to_data( ... )
...