Apache Tika для docx - PullRequest
       21

Apache Tika для docx

0 голосов
/ 22 сентября 2018

Я пытался разобрать содержимое из файла .docx и столкнулся с проблемами

val file : File = new File(a._1.drop(5))
val myparser : AutoDetectParser = new AutoDetectParser()
val stream : InputStream = new FileInputStream(file) 
val handler : WriteOutContentHandler = new WriteOutContentHandler(-1)
val metadata : Metadata = new Metadata()
val context : ParseContext = new ParseContext()

myparser.parse(stream, handler, metadata, context)

java.lang.NoClassDefFoundError:org/apache.poi.openxml4j/exceptions/InvalidFormatException at org.apache.tika.parser.microsoft.ooxml.OOXMLParser.parse(OOXMLParser.java:82) at org.apache.tika.parser.CompositeParser.parser(CompositeParser.java:281) org.apache.tika.parser.CompositeParser.parser(CompositeParser.java:281) org.apache.tika.parser.AutoDetectParser.parser(AutoDetectParser.java:281)

Я пытался импортировать poi-4.0.0.jar и poi-3.17.jar, но все равно не повезло.Кроме того, есть ли способ обработать это исключение

...