Я делаю проект OCR в python, и у меня есть несколько документов PDF с изображениями и я извлекаю данные из PDF или изображений, а затем снова реструктурирую тот же формат в PDF.
Я сделал pdf для извлечения данных, но мы не сможем преобразовать данные реструктуризации того же формата в pdf. Я много пробовал, но не смог.
from pytesseract import pytesseract
import fpdf
def OCR_Str(img):
pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
Data1 = pytesseract.image_to_string(img)
#print(Data1)
return Data1
OCr_Data = OCR_Str('OCR_file1.tiff')
data = OCr_Data.split('\n')
print(data)
pdf = fpdf.FPDF(format='letter')
pdf.add_page()
pdf.set_font('arial', 'B', 13.0)
#
# for i in data:
# print(i)
# if type(i) == str:
pdf.write(2, str(OCr_Data))
pdf.ln()
pdf.output('testings.pdf').encode('\u2019')
Я ожидаю вывод строковых данных, но фактический вывод - «реструктуризация в формате PDF»