Существует некоторый файл index.html (сохраненный в UTF-8):
<html>
<head></head>
<body>
<h1> THE TITLE </h1>
Please click <a href="url"> here </a>
<br> ... Some text... <br>
Image: <img src="nature.png"/>
<br> ... Some another text... <br>
Image2: <img src="nature2.png" />
</body>
</html>
Мне нужно извлечь весь текст, содержащийся внутри тега BODY, изменить его и сохранить.Поэтому я делаю так:
File input = new File("html/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "");
Elements body = doc.select("BODY");
//do some manipulations with the data and print it
System.out.println(body.html());
Результат:
?
<h1> THE TITLE </h1> Please click
<a href="url"> here </a>
...
Все нормально, кроме символа вопроса в начале.Как я могу избежать этого?Конечно, я могу просто удалить его из строки результата) Но я бы хотел понять, в чем дело.