Рассмотрим список отсканированных изображений с отображаемым содержимым следующим образом:
Page
Hello 133 This is 159
World! 134 An example 160
Я хотел бы извлечь текст из изображений, используя pyocr
.
from PIL import Image as p_img
import pyocr.builders
import pyocr
import io
tool = pyocr.get_available_tools()[0]
lang = tool.get_available_languages()[0]
text = []
img_ls = [] # list containing all my images
for i in img_ls:
content = tool.image_to_string(
p_img.open(io.BytesIO(i)),
lang = lang,
builder = pyocr.builders.TextBuilder()
)
text.append(content)
. Вывод вышеупомянутого после сохранения его в виде .txt
файла:
Page
Hello
World!
133
134
This is
An example
159
160
Как видите, столбцы с номерами страниц обрабатываются как отдельные столбцы. Я хотел бы знать, есть ли способ (например, расширение диапазона обнаружения справа), чтобы pyocr
интерпретировал их как принадлежащие контенту слева.
В идеале я хотел бы получить следующий вывод:
Page
Hello 133
World! 134
This is 159
An example 160