Как обеспечить, чтобы столбцы в PDF были логически разделены? - PullRequest
0 голосов
/ 06 февраля 2019

У меня есть несколько отсканированных изображений документов, которые содержат текстовые столбцы, разделенные очень тонким полем и вертикальной линией.Я успешно нашел вертикальную линию программно и разделил столбцы, затем получил hOCR для каждого, используя PyTessBaseAPI.SetRectangle() и .GetHOCRText().

Используя hocr-pdf (который использует reportlab.pdfgenЗатем я создаю PDF.Текст OCR правильно выровнен с изображением, однако выделение текста охватывает оба столбца и дает искаженный вывод:

Example

Giverenke i Rødby для Kost og Logis til et Beløbborg, для Arrestanten Andreas Fredriksen, født

af 67 Kroner 64 Øre, то же самое можно сказать о Byen i Hornbæk den 1. Decbr.1852. [2500].

Уден в бетале.31 декабря 2009 года. * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Nksskov, мужчины forladt denne.курица andenstedsDe bedesillerede stensen, født i Kjøbenhavn den 30. Oktober 1854.

Мне нужно логически разделить столбцы в результирующем PDF, однако в документации reportlab я не вижу ничего, что могло быОблегчите это.

Мне трудно найти решение, так как я не уверен в словарном запасе.

...