У меня есть стопка отсканированных документов в формате PDF. Теперь я хочу, чтобы ocr эти файлы. Есть некоторые инструменты, которые делают это, но я не могу использовать их в своем коде Python. Я не хочу устанавливать один из этих инструментов и запустить команду.
Я хочу сделать что-то вроде этого:
import ocrmypdf
ocrmypdf(INPUTFILE, OUTPUTFILE)
Я нашел этот инструмент: Но все не вызывается как функция Python.
• ocrmypdf
• pdf2pdfocr
• pdfsandwich
• pypdfocr
• pdfbeads