У меня есть папка с несколькими подпапками и изображениями, и я хочу использовать Baidu OCR для извлечения текстов в файлах изображений для каждой подпапки и записи в один файл excel (необходимо разделить содержимое) для каждой подпапки, названной по имени подпапки:
folder
\ sub1\file0.jpg
\ sub1\file1.jpg
\ sub1\file2.png
.
.
.
\ sub2\xxx.png
\ sub2\yyy.jpg
\ sub2\zzz.png
.
.
.
Ожидаемые результаты:
folder
\ sub1\file0.jpg
\ sub1\file1.jpg
\ sub1\file2.png
\ sub1\sub1.xlsx
.
.
.
\ sub2\xxx.png
\ sub2\yyy.jpg
\ sub2\zzz.png
\ sub2\sub2.xlsx
.
.
.
Вот то, что я пробовал, но я не знаю, как реализовать весь процесс. Пожалуйста, поделитесь своими идеями и идеями. Спасибо.
Шаг 1: перебрать все подпапки и файлы изображений:
import os
dir_name = "D:/folder"
for root, dirs, files in os.walk(dir_name, topdown=False):
for file in files:
print(file)
print(root)
print(dirs)
Шаг 2: OCR одно изображение
from aip import AipOcr
APP_ID = '<APP_ID>'
API_KEY = '<APP_KEY>'
SECRET_KEY = '<APP_SECRET>'
aipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY)
filePath = "test.jpg"
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
options = {
'detect_direction': 'true',
'language_type': 'CHN_ENG',
'recognize_granularity': 'big',
'vertexes_location': 'true',
#'probability': 'true',
#'detect_language': 'true'
}
result = aipOcr.basicAccurate(get_file_content(filePath), options)
print(result)
df = DataFrame(result)
writer = ExcelWriter('test.xlsx')
df.to_excel(writer, index = False)
writer.save()
Шаг 3: написать файл Excel для каждой подпапки (спасибо @Florian H)
Создать пустой файл для каждой подпапки, используя имя подпапки в Python
from os import listdir
from os.path import isfile, join
mypath = "D:/"
def write_files(path):
folders = [f for f in listdir(path) if not isfile(join(path, f))]
if len(folders) == 0:
#Writing the actual File
open(path+"/"+path.split("/")[-1]+".xlsx", "w+")
else:
for folder in folders:
write_files(path+"/"+folder)
write_files(mypath)