Java, XML DocumentBuilder - установка кодировки при разборе - PullRequest
5 голосов
/ 26 августа 2010

Я пытаюсь сохранить дерево (расширяет JTree), которое содержит документ XML, в DOM Object, изменив его структуру.

Я создал новый объект документа, прошел черездерево для успешного извлечения содержимого (включая исходную кодировку документа XML) и теперь имеет ByteArrayInputStream с содержимым дерева (документ XML) с правильной кодировкой.

ПроблемаКогда я анализирую ByteArrayInputStream, кодировка автоматически меняется на UTF-8 (в документе XML).

Есть ли способ предотвратить это и использовать правильную кодировку, указанную в ByteArrayInputStream.

Также стоит добавить, что я уже использовал метод
transformer.setOutputProperty(OutputKeys.ENCODING, encoding) для получения правильной кодировки.

Буду признателен за любую помощь.

Ответы [ 4 ]

3 голосов
/ 17 декабря 2012
// Read XML
String xml = "xml"
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document document = builder.parse(new InputSource(new StringReader(xml)));

// Append formatting
OutputFormat format = new OutputFormat(document);

if (document.getXmlEncoding() != null) {
  format.setEncoding(document.getXmlEncoding());
}

format.setLineWidth(100);
format.setIndenting(true);
format.setIndent(5);
Writer out = new StringWriter();
XMLSerializer serializer = new XMLSerializer(out, format);
serializer.serialize(document);
String result = out.toString();
3 голосов
/ 21 февраля 2014

Вот обновленный ответ, поскольку OutputFormat устарел:

TransformerFactory tf = TransformerFactory.newInstance();
Transformer transformer = tf.newTransformer();
transformer.setOutputProperty(OutputKeys.ENCODING, "ISO-8859-1");

StringWriter writer = new StringWriter();
transformer.transform(new DOMSource(document), new StreamResult(writer));
String output = writer.getBuffer().toString().replaceAll("\n|\r", "");

Вторая часть возвращает XML-документ в виде строки

2 голосов
/ 26 августа 2010

Я решил, учитывая множество проб и ошибок.

Я использовал

OutputFormat format = new OutputFormat(document);

, но изменил его на

OutputFormat format = new OutputFormat(d, encoding, true);

, и это решило мою проблему,

encoding - это то, что я установил для него
true указывает на то, установлен или нет отступ.

Примечание для самостоятельного прочтения - читайте внимательнее - я посмотрел наJavadoc несколько часов назад - если бы я только прочитал более внимательно.

0 голосов
/ 15 ноября 2016

Это сработало для меня и очень просто.Нет необходимости в преобразователе или форматере вывода:

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
InputSource is = new InputSource(inputStream);
is.setEncoding("ISO-8859-1"); // set your encoding here
Document document = builder.parse(is);
...