Html получить заголовок неправильной кодировки на странице - PullRequest
1 голос
/ 26 февраля 2012

Я сделал небольшую функцию для получения заголовка веб-страницы, в данном случае IMDB. Но когда заголовок содержит специальные символы, например, кодировка закручивается вверх.

например, я вызываю функцию с "http://www.imdb.com/title/tt0290002/"

im expecting the title "Familjen är värre (2004) - IMDb"
but i get: "Familjen är värre (2004) - IMDb"

I dont know how to get the 'ä' from 'ä'

Я попытался использовать кодировку: «ISO-8859-1», которую использует imdb, но я не вижу разницы.

private String getTitleForLink(String link) {
    Pattern p = Pattern.compile("<title>(.*?)</title>");
    try {
        HttpURLConnection httpcon = (HttpURLConnection) new URL(link).openConnection();
        httpcon.addRequestProperty("User-Agent", "Mozilla/5.0");
        InputStreamReader isr = new InputStreamReader(
                httpcon.getInputStream(), );
        BufferedReader br = new BufferedReader(isr);
        while (br.ready()) {
            Matcher m = p.matcher(br.readLine());
            if ((m.find() == true)) {
                String title = m.group(1);
                br.close();
                return title.trim();
            }
        }
        br.close();
    } catch (MalformedURLException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }
    return "";
}
...