У меня есть несколько отсканированных изображений документов, которые содержат текстовые столбцы, разделенные очень тонким полем и вертикальной линией.Я успешно нашел вертикальную линию программно и разделил столбцы, затем получил hOCR для каждого, используя PyTessBaseAPI.SetRectangle()
и .GetHOCRText()
.
Используя hocr-pdf (который использует reportlab.pdfgen
Затем я создаю PDF.Текст OCR правильно выровнен с изображением, однако выделение текста охватывает оба столбца и дает искаженный вывод:
Giverenke i Rødby для Kost og Logis til et Beløbborg, для Arrestanten Andreas Fredriksen, født
af 67 Kroner 64 Øre, то же самое можно сказать о Byen i Hornbæk den 1. Decbr.1852. [2500].
Уден в бетале.31 декабря 2009 года. * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Nksskov, мужчины forladt denne.курица andenstedsDe bedesillerede stensen, født i Kjøbenhavn den 30. Oktober 1854.
Мне нужно логически разделить столбцы в результирующем PDF, однако в документации reportlab
я не вижу ничего, что могло быОблегчите это.
Мне трудно найти решение, так как я не уверен в словарном запасе.