iOS - Как распознать текст как блок с помощью Tesseract OCR - PullRequest
0 голосов
/ 12 ноября 2018

Я использую Google Tessseract OCR (https://github.com/gali8/Tesseract-OCR-iOS) для преобразования изображений в текст в моем приложении iOS.

Я могу отсканировать и получить строку, используя следующий код.

let tesseract:G8Tesseract = G8Tesseract(language:"eng")
        tesseract.delegate = self
        tesseract.image = imageTaken // image taken from camera
        tesseract.engineMode = .tesseractCubeCombined  
        tesseract.recognize()  
        print(tesseract.recognizedText)

Сканирует и извлекает текст построчно. (Смешивает строки из других абзацев). Вот так.

Изображение 1

enter image description here

Теперь, как я могу получить текст в виде блока и прочитать строки из каждого блока в отдельности. Вот так.

Изображение 2

enter image description here

Вещи, которые я пробовал.

  • print (tesseract.recognizedBlocks (by: .block))
  • print (tesseract.recognizedBlocks (by: .paragraph))

Тем не менее он смешивает строки из разных абзацев и рассматривает тексты как одну строку, как показано на рисунке 1.

Любая помощь будет оценена. Заранее спасибо.

...