Атрибуты HTML-тегов не сохраняются Apache Tika при конвертации из docx в HTML - PullRequest
0 голосов
/ 25 сентября 2018

Нет атрибутов тегов, сохраняемых Apache Tika, когда я конвертирую docx файл в HTML.Какие-либо предложения ?Даже я попробовал Apache POI, но там тоже есть такая же проблема.

InputStream input = TikaInputStream.get(new File("/home/jan.docx"));
Parser parser = new AutoDetectParser(new DefaultDetector());
try {
    StringWriter sw = new StringWriter();
    SAXTransformerFactory factory = (SAXTransformerFactory) SAXTransformerFactory.newInstance();
    TransformerHandler handler = factory.newTransformerHandler();
    handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "utf-16");
    handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
    handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
    handler.setResult(new StreamResult(sw));
    Metadata metadata = new Metadata();
    metadata.add(Metadata.CONTENT_TYPE, "text/html;charset=utf-16");
    metadata.add(Metadata.CONTENT_ENCODING, "charset=utf-16");
    ParseContext parseContext = new ParseContext();
    parseContext.set(Parser.class, parser);
    parser.parse(input, new ExpandedTitleContentHandler(handler), metadata, parseContext);
    String xml = sw.toString();
    BufferedWriter bw = new BufferedWriter(new FileWriter(new File("/home/IK.html")));
    bw.write(xml);
    bw.close();
} catch (Exception e) {
    e.printStackTrace();
} finally {
    input.close();
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...