Увеличьте дальность обнаружения pyocr, чтобы получить разделенный пробелами текст в одной строке - PullRequest
0 голосов
/ 17 января 2020

Рассмотрим список отсканированных изображений с отображаемым содержимым следующим образом:

                    Page
Hello               133                     This is                 159
World!              134                     An example              160

Я хотел бы извлечь текст из изображений, используя pyocr.

from PIL import Image as p_img
import pyocr.builders
import pyocr
import io

tool = pyocr.get_available_tools()[0]
lang = tool.get_available_languages()[0]

text = []
img_ls = [] # list containing all my images
for i in img_ls:
    content = tool.image_to_string(
        p_img.open(io.BytesIO(i)),
        lang = lang,
        builder = pyocr.builders.TextBuilder()
    )
    text.append(content)

. Вывод вышеупомянутого после сохранения его в виде .txt файла:

Page
Hello
World!
133
134
This is
An example
159
160

Как видите, столбцы с номерами страниц обрабатываются как отдельные столбцы. Я хотел бы знать, есть ли способ (например, расширение диапазона обнаружения справа), чтобы pyocr интерпретировал их как принадлежащие контенту слева.

В идеале я хотел бы получить следующий вывод:

Page
Hello 133
World! 134
This is 159
An example 160
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...