Я сделал небольшую функцию для получения заголовка веб-страницы, в данном случае IMDB.
Но когда заголовок содержит специальные символы, например, кодировка закручивается вверх.
например, я вызываю функцию с "http://www.imdb.com/title/tt0290002/"
im expecting the title "Familjen är värre (2004) - IMDb"
but i get: "Familjen är värre (2004) - IMDb"
I dont know how to get the 'ä' from 'ä'
Я попытался использовать кодировку: «ISO-8859-1», которую использует imdb, но я не вижу разницы.
private String getTitleForLink(String link) {
Pattern p = Pattern.compile("<title>(.*?)</title>");
try {
HttpURLConnection httpcon = (HttpURLConnection) new URL(link).openConnection();
httpcon.addRequestProperty("User-Agent", "Mozilla/5.0");
InputStreamReader isr = new InputStreamReader(
httpcon.getInputStream(), );
BufferedReader br = new BufferedReader(isr);
while (br.ready()) {
Matcher m = p.matcher(br.readLine());
if ((m.find() == true)) {
String title = m.group(1);
br.close();
return title.trim();
}
}
br.close();
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return "";
}