Tesseract-ocr определяет, подчеркнут ли текст - PullRequest
0 голосов
/ 10 июля 2020

Я реализовал tesseract ocr с tess4j в моем java приложении для извлечения текста и их атрибута шрифта word, используя образец здесь .

Проблема, с которой я столкнулся, заключается в том, что я не могу получить "подчеркнутый" работает. Я пробовал много образцов изображений с подчеркнутым текстом, и tesseract никогда не мог определить его как подчеркнутый. Есть ли альтернативные решения? Может быть, используя командную строку tesseract, которая каким-то образом будет возвращать атрибут шрифта слова, включая подчеркнутый?

Образец изображения, который я пробовал Образец 1

...