Как я прочитал .. вы можете сделать это с помощью tika, используя этот код
byte[] raw = content.getContent();
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext());
LOG.info("content: " + handler.toString());
, хотя я тестировал его, но обнаружил, что handler.toString () пуст!