Я извлекаю некоторую информацию из исходного кода html разных страниц с помощью jsoup.Большинство из них имеют кодировку UTF-8.Один из них кодируется с помощью ISO-8859-1, что приводит к странной ошибке (по моему мнению).
Страница, содержащая ошибку: http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html
Я прочиталНеобходимая строка со следующим фрагментом кода:
Document doc = Jsoup.connect("http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html").userAgent("Mozilla").get();
String title = doc.getElementsByClass("products_name").first().text();
Проблема заключается в дефисе в строке «HD Armbanduhr aus Metall 4GB Wasserdicht 1280X960 - 5 мегапикселей».Нормальные умлауты типа öäü читаются правильно.Только этот единственный символ, который не считается "& # 45;"делает проблему.
Я попытался переопределить (правильно установленную) кодировку страницы с помощью out.outputSettings (). charset ("ISO-8859-1"), но это тоже не помогло.
Далее я попытался изменить кодировку строки с помощью класса Charset с и на utf8 и iso-8859-1 вручную.Также не повезло.
Кто-нибудь подсказал, что я могу попытаться получить правильный символ после анализа html-документа с помощью jsoup?
Спасибо