Проблема кодирования с использованием HTTP-клиента Apache для загрузки китайского веб-сайта - PullRequest
0 голосов
/ 25 февраля 2019

У меня проблема с кодировкой при загрузке китайского URL-адреса RSS http://finance.qq.com/stock/ggjj/rss_ggjj.xml

import java.io.IOException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class Test {

public static void main(String[] args) {

    CloseableHttpResponse response = null;
    CloseableHttpClient httpclient = HttpClients.createDefault();

    try {
        String url = "http://finance.qq.com/stock/ggjj/rss_ggjj.xml";
        response = httpclient.execute(new HttpGet(url));
        System.out.println(EntityUtils.toString(response.getEntity(), "UTF-8"));
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        try {
            response.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

}
}

Вывод содержит некорректно закодированные символы:

... � ㄨ ����* � 锛 � 涓 �� ㄤ � 娉 �������� 姘 姘 * ...

...