Как извлечь текст из двух колонок PDF с помощью Python? - PullRequest
0 голосов
/ 11 марта 2019

У меня есть: enter image description here

У меня есть PDF в двухколоночном формате. Есть ли способ прочитать каждый PDF в соответствии с двухколоночным форматом без обрезкикаждый PDF отдельно?

1 Ответ

0 голосов
/ 11 марта 2019

Это код, который я использую для обычного анализа pdf, и кажется, что он хорошо работает с этим изображением (я скачал изображение, поэтому он использует Оптическое распознавание символов, поэтому он такой же точный, как и обычный OCR).Обратите внимание, что это токенизирует текст.Также обратите внимание, что для этого нужно установить tesseract (pytesseract просто заставляет работать tesseract из python).Tesseract является бесплатным и открытым исходным кодом.

from PIL import Image
import pytesseract
import cv2
import os

def parse(image_path, threshold=False, blur=False):
    image = cv2.imread(image_path)
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    if threshold:
        gray = cv2.threshold(gray, 0, 255, \
            cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
    if blur: #useful if salt-and-pepper background.
        gray = cv2.medianBlur(gray, 3)
    filename = "{}.png".format(os.getpid())
    cv2.imwrite(filename, gray) #Create a temp file
    text = pytesseract.image_to_string(Image.open(filename))
    os.remove(filename) #Remove the temp file
    text = text.split() #PROCESS HERE.
    print(text)
a = parse(image_path, True, False)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...