Я реализовал tesseract ocr с tess4j в моем java приложении для извлечения текста и их атрибута шрифта word, используя образец здесь .
Проблема, с которой я столкнулся, заключается в том, что я не могу получить "подчеркнутый" работает. Я пробовал много образцов изображений с подчеркнутым текстом, и tesseract никогда не мог определить его как подчеркнутый. Есть ли альтернативные решения? Может быть, используя командную строку tesseract, которая каким-то образом будет возвращать атрибут шрифта слова, включая подчеркнутый?
Образец изображения, который я пробовал Образец 1