Как очистить XML-файл для разбора Java, поместив кавычки вокруг атрибутов - PullRequest
3 голосов
/ 13 мая 2011

У меня есть серия XML-файлов, которая выглядит примерно так:

<ROOT>
    <F P=100> Some text here </F>
    <F P=101> More text </F>
    ...
</ROOT>

Я пытаюсь проанализировать xml, используя стандартный способ DOM, но поскольку значения атрибутов для P не в кавычках, Java жалуется.

Я пытался использовать JTidy для очистки, но поскольку мой xml не является HTML, Tidy выдает ошибки, жалуясь на то, что он не распознает теги <ROOT> и <F> и т. Д.

Итак, есть ли другой способ сделать это? В качестве альтернативы, я думаю, я мог бы использовать регулярное выражение, поскольку единственные атрибуты без кавычек встречаются в тегах <F>. Есть какие-нибудь мысли по поводу этого?

Заранее спасибо

1 Ответ

3 голосов
/ 13 мая 2011

Все, что мне нужно было сделать, это установить tidy.setXmlTags (true), чтобы tidy обрабатывал ввод как XML, а не как HTML

- Шелдон

...