Как определить причину, по которой процессор Tika не работает для документов OCR (отсканированных документов PDF) в моей системе? - PullRequest
0 голосов
/ 25 сентября 2018

Tika Procesor отлично работает с обычными не отсканированными PDF-файлами, но не может обработать отсканированные PDF-документы, даже если я установил Tesseract и следующие зависимости на моем Mac.Моя версия Java - "1.8.0_112", тессеракт 3.04.01, leptonica-1.74.1, libjpeg 8d: libpng 1.6.28: libtiff 4.0.7: zlib 1.2.8.

, но тот же код сВышеупомянутые зависимости в моих друзьях Mac отлично работают для отсканированных документов PDF.

как определить причину, по которой процессор Tika не работает в моей системе, так как тот же код с такими же зависимостями прекрасно работает в других системах?pom.xml имеет:

<dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-core</artifactId>
      <version>1.16</version>
    </dependency>
    <dependency>
       <groupId>org.apache.tika</groupId>
       <artifactId>tika-parsers</artifactId>
       <version>1.16</version>
    </dependency>
    <dependency>
       <groupId>com.github.jai-imageio</groupId>
       <artifactId>jai-imageio-core</artifactId>
       <version>1.4.0</version>
    </dependency>
    <dependency>
       <groupId>com.github.jai-imageio</groupId>
       <artifactId>jai-imageio-jpeg2000</artifactId>
       <version>1.3.0</version>
    </dependency>
   <dependency>
      <groupId>com.levigo.jbig2</groupId>
      <artifactId>levigo-jbig2-imageio</artifactId>
      <version>2.0</version>
   </dependency>
   <dependency>
     <groupId>org.bouncycastle</groupId>
     <artifactId>bcprov-jdk15on</artifactId>
     <version>1.59</version>
   </dependency>
   <dependency>
      <groupId>org.bouncycastle</groupId>
      <artifactId>bcmail-jdk15on</artifactId>
      <version>1.59</version>
   </dependency>
  <dependency>
     <groupId>org.bouncycastle</groupId>
     <artifactId>bcpkix-jdk15on</artifactId>
     <version>1.59</version>
  </dependency>
...