Нет атрибутов тегов, сохраняемых Apache Tika, когда я конвертирую docx файл в HTML.Какие-либо предложения ?Даже я попробовал Apache POI, но там тоже есть такая же проблема.
InputStream input = TikaInputStream.get(new File("/home/jan.docx"));
Parser parser = new AutoDetectParser(new DefaultDetector());
try {
StringWriter sw = new StringWriter();
SAXTransformerFactory factory = (SAXTransformerFactory) SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "utf-16");
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
handler.setResult(new StreamResult(sw));
Metadata metadata = new Metadata();
metadata.add(Metadata.CONTENT_TYPE, "text/html;charset=utf-16");
metadata.add(Metadata.CONTENT_ENCODING, "charset=utf-16");
ParseContext parseContext = new ParseContext();
parseContext.set(Parser.class, parser);
parser.parse(input, new ExpandedTitleContentHandler(handler), metadata, parseContext);
String xml = sw.toString();
BufferedWriter bw = new BufferedWriter(new FileWriter(new File("/home/IK.html")));
bw.write(xml);
bw.close();
} catch (Exception e) {
e.printStackTrace();
} finally {
input.close();
}