Существует несколько инструментов OCR с открытым исходным кодом, таких как tesseract или openCV .
Если вы хотите использовать, например, Тессеракт есть библиотека оболочки Python pytesseract .
Большинство инструментов OCR работают с изображениями, поэтому сначала нужно преобразовать PDF-файл в формат файла изображения, например PNG или JPG. После этого вы можете загрузить свое изображение и обработать его с помощью pytesseract.
Вот пример кода, как вы можете использовать pytesseract. Предположим, вы уже преобразовали свой PDF в изображение с именем pdfName.png
:
from PIL import Image
import pytesseract
def ocr_core(filename):
"""
This function will handle the core OCR processing of images.
"""
text = pytesseract.image_to_string(Image.open(filename)) # We'll use Pillow's Image class to open the image and pytesseract to detect the string in the image
return text
print(ocr_core('pdfName.png'))