Парсинг PDF в Apache TIKA - PullRequest
       38

Парсинг PDF в Apache TIKA

0 голосов
/ 30 апреля 2018

Я очень новичок в Apache Tika и пытаюсь понять, как его использовать. Я читал некоторые блоги через Интернет и пытался разобрать файл PDF. Мой код Scala:

import java.io.{File,FileInputStream}

import org.apache.tika.Tika
import org.apache.tika.parser._
import org.apache.tika.metadata._
import org.apache.tika.sax.WriteOutContentHandler
import org.apache.tika.parser.pdf.PDFParser

object TikaExtract extends App{
  val tika = new Tika()

  val file1 = new File("/home/user/Documents/aa.pdf")
  val stream = new FileInputStream(file1)

  val pdf = new PDFParser()
  val handler = new WriteOutContentHandler(-1)
  val metadata = new Metadata()
  val context = new ParseContext()
  pdf.parse(stream, handler, metadata, context)
  stream.close()
}

Ошибка, которую я получаю:

Исключение в потоке "main" java.lang.NoClassDefFoundError: org / apache / jempbox / xmp / XMPSchema в TikaExtract $ .delayedEndpoint $ TikaExtract $ 1 (TikaExtract.scala: 15) в TikaExtract $ delayedInit $apple. scala: 9) в scala.Function0 $ class.apply $ mcV $ sp (Function0.scala: 34) в scala.runtime.AbstractFunction0.apply $ mcV $ sp (AbstractFunction0.scala: 12) в scala.App $$ anonfun $ main $ 1.apply (App.scala: 76) в scala.App $$ anonfun $ main $ 1.apply (App.scala: 76) в scala.collection.immutable.List.foreach (List.scala: 381) в scala. коллекция scala) Вызывается: java.lang.ClassNotFoundException: org.apache.jempbox.xmp.XMPSchema в java.net.URLClassLoader.findClass (URLClassLoader.java:381) в java.lang.ClassLoader.loadClass (ClassLoader.java:4) в sun.misc.Launcher $ AppClassLoader.loadClass (Launcher.java:338) в java.l ang.ClassLoader.loadClass (ClassLoader.java:357) ... еще 11

Что я тут не так делаю?

...