Извлечение текста из DjVu с помощью Apache Tika - PullRequest
0 голосов
/ 05 сентября 2018

Я использую Apache Tika для файлов OCR. С PDF-файлами работает нормально, но с djvu есть проблемы. С версии 1.14 Тика, кажется, поддерживает Djvu. Есть идеи, как решить эту проблему?

D:\java -jar tika-app-1.18.jar -eUTF-8 test.djvu

Возвращает

sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNING: J2KImageReader not loaded. JPEG2000 files will not be processed.
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.

sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNING: org.xerial's sqlite-jdbc is not loaded.
Please provide the jar on your classpath to parse sqlite files.
See tika-parsers/pom.xml for the correct version.

    <?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml"
    >
    <head>
    <meta name="X-Parsed-By" content="org.apache.tika.parser.EmptyParser"/>
    <meta name="resourceName" content="test.djvu"/>
    <meta name="Content-Length" content="23038658"/>
    <meta name="Content-Type" content="image/vnd.djvu"/>
    <title/>
    </head>
    <body/></html>
...