tesserocr не анализирует / читает мои изображения в порядке их появления - PullRequest
0 голосов
/ 11 марта 2020

Почему tesserOCR не читает мои файлы в том порядке, в котором они отображаются в структуре папок? Я проиндексировал свой фрейм данных как таковой, и теперь они не соответствуют. Какие-либо предложения?

import pytesseract as tess
from tesserocr import PyTessBaseAPI, RIL
import os
from PIL import Image
import pandas as pd
import re
import tesserocr


path = "/Users/oliviervandhuynslager/PycharmProjects/OCR/DC_SCANS_TEST" ##path to directory (folder) where the images are located

count = 0
fileName = [] #create empty list that will contain the original filenames
fullText = [] #create empty list to store the OCR results per file
for imageName in os.listdir(path):
    count = count + 1
    fileName.append(imageName)
    fileName.sort()#generate list from texts.

with PyTessBaseAPI() as api:
    for imageName in os.listdir(path):
        inputPath = os.path.join(path, imageName)
        api.SetImageFile(inputPath)
        text = api.GetUTF8Text()
        print(api.AllWordConfidences())
        fullText.append(text)

d = {"FILENAME":fileName, "OCR": fullText}
df = pd.DataFrame(d)
...