Здесь я использую scala, чтобы выдать свое решение.Если вы являетесь Java-разработчиком, вам будет довольно легко преобразовать код Scala в ваш Java-код.
Step1: в build.sbt добавить еще одну строку
libraryDependencies += "com.asprise.ocr" % "java-ocr-api" % "[15,)"
Step2: import library
import com.asprise.ocr.Ocr
Step2: код scala. Обратите внимание: здесь указан тип File .Если у вас есть только fileName / filePath, вам нужно использовать new File () для его преобразования.
try {
// Image
Ocr.setUp()
val ocr = new Ocr
ocr.startEngine("eng", Ocr.SPEED_FASTEST)
val files = List(<your_file>)
val outputString = ocr.recognize(files.toArray, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PLAINTEXT)
ocr.stopEngine()
Some(outputString)
} catch {
case e: Exception => None // todo: to support multiple file types
}
Я также пишу в блоге, чтобы дать более подробную информацию о , как извлечь текст / контент из другого файла (pdf, html, изображение и т. Д.)
Если вы хотите узнать больше об этом java-ocr-api, вы можете прочитать его официальный сайт здесь .