Предполагается, что веб-страница закодирована с правильными тегами. Как я могу преобразовать его в файл XML? Я думаю, что большинство веб-страниц можно рассматривать как дерево dom ... Как я могу преобразовать его в файл XML?
JTidy читает HTML и представляет его как DOM. Если у вас есть HTML в качестве DOM, вы сможете обработать его и записать в формате XML.
Чтобы вывести DOM, см. Пример кода здесь и, в частности, XMLSerializer.