Можно ли вернуть извлеченные данные OCR обратно в тот же формат реструктуризации в Python (OCR) - PullRequest
0 голосов
/ 27 июня 2019

Я делаю проект OCR в python, и у меня есть несколько документов PDF с изображениями и я извлекаю данные из PDF или изображений, а затем снова реструктурирую тот же формат в PDF.

Я сделал pdf для извлечения данных, но мы не сможем преобразовать данные реструктуризации того же формата в pdf. Я много пробовал, но не смог.

from pytesseract import pytesseract
import fpdf

def OCR_Str(img):
    pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
    Data1 = pytesseract.image_to_string(img)

    #print(Data1)
    return Data1
OCr_Data = OCR_Str('OCR_file1.tiff')
data = OCr_Data.split('\n')
print(data)
pdf = fpdf.FPDF(format='letter')
pdf.add_page()


pdf.set_font('arial', 'B', 13.0)

#
# for i in data:
#     print(i)
#     if type(i) == str:
pdf.write(2, str(OCr_Data))
pdf.ln()
pdf.output('testings.pdf').encode('\u2019')

Я ожидаю вывод строковых данных, но фактический вывод - «реструктуризация в формате PDF»

1 Ответ

0 голосов
/ 27 июня 2019

Это не имеет ничего общего с OCR.

Для создания PDF в Python вы можете использовать Латекс .

Сначала программно запишите файл .tex с соответствующим синтаксисом. Затем скомпилируйте этот файл в pdf, используя команды tex

...