Как правило, у вас есть HTML-документ, из которого вы хотите извлечь данные. Вы вообще знаете структуру HTML-документа.
Существует несколько библиотек синтаксического анализатора, но лучшая из них - Jsoup , вы можете использовать методы DOM для навигации по документу и обновления значений. В вашем случае вам нужно прочитать файл и использовать методы установки атрибутов .
Пример файла XHTML:
<?xml version="1.0" encoding="UTF-8"?>
<!--
To change this license header, choose License Headers in Project Properties.
To change this template file, choose Tools | Templates
and open the template in the editor.
-->
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Example</title>
</head>
<body>
<p id="content">Hello World</p>
</body>
</html>
Java-код:
File input = new File("D:\\Projects\\Odata Project\\Odata\\src\\web\\html\\inscription_template.xhtml");
org.jsoup.nodes.Document doc = Jsoup.parse(input,null);
org.jsoup.nodes.Element content = doc.getElementById("content");
System.out.println(content.text("Hi How are you ?"));
System.out.println(content.text());
System.out.println(doc);
Вывод после выполнения:
<p id="content">Hi How are you ?</p>
Hi How are you ?
<!--?xml version="1.0" encoding="UTF-8"?-->
<!--
To change this license header, choose License Headers in Project Properties.
To change this template file, choose Tools | Templates
and open the template in the editor.
--><!doctype html>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Example</title>
</head>
<body>
<p id="content">Hi How are you ?</p>
</body>
</html>