Если кто-то ищет решение, вы можете использовать EmbeddedDocumentExtractor class.
class EmbeddedImageFinder() extends EmbeddedDocumentExtractor {
override def shouldParseEmbedded(metadata: Metadata): Boolean = {
if(metadata.get("Content-Type").contains("image/")) {
isImageExists = true
}
false
}
override def parseEmbedded(stream: InputStream, handler: ContentHandler,
metadata: Metadata, outputHtml: Boolean): Unit = {}
}
, а затем добавить его в ParserContext
context.set(classOf[EmbeddedDocumentExtractor], new EmbeddedImageFinder)