Не удалось загрузить указанный c URL в java - PullRequest
0 голосов
/ 30 апреля 2020

Я пишу следующую программу для загрузки URL-адреса с использованием Apache Common-IO и получаю исключение ReadTimeOut, исключение

java.net.SocketTimeoutException: Read timed out
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.socketRead(Unknown Source)
at java.net.SocketInputStream.read(Unknown Source)
at java.net.SocketInputStream.read(Unknown Source)
at sun.security.ssl.InputRecord.readFully(Unknown Source)
at sun.security.ssl.InputRecord.read(Unknown Source)
at sun.security.ssl.SSLSocketImpl.readRecord(Unknown Source)
at sun.security.ssl.SSLSocketImpl.readDataRecord(Unknown Source)
at sun.security.ssl.AppInputStream.read(Unknown Source)
at java.io.BufferedInputStream.fill(Unknown Source)
at java.io.BufferedInputStream.read1(Unknown Source)
at java.io.BufferedInputStream.read(Unknown Source)
at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)
at sun.net.www.http.HttpClient.parseHTTP(Unknown Source)
at sun.net.www.protocol.http.HttpURLConnection.getInputStream0(Unknown Source)
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
at sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source)
at java.net.URL.openStream(Unknown Source)
at org.apache.commons.io.FileUtils.copyURLToFile(FileUtils.java:1456)
at com.touseef.stock.FileDownload.main(FileDownload.java:23)

Программа

String urlStr = "https://www.nseindia.com/";
    File file = new File("C:\\User\\WorkSpace\\Output.txt");
    URL url;
    try {
        url = new URL(urlStr);
        FileUtils.copyURLToFile(url, file);
        System.out.println("Successfully Completed.");
    } catch (MalformedURLException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }

Другие сайты могут скачивать. Пожалуйста, предложите. Использование commons-io-2.6 jar.

1 Ответ

0 голосов
/ 01 мая 2020

Похоже, этот сайт защищен каким-то веб-шлюзом (службой защиты DOS, такой как Akamai?). Похоже, что клиенты получают отпечатки пальцев по TLS-соединению и HTTP-запросу (заголовкам), и только действительные веб-браузеры могут подключаться к сайту.

В следующем коде используется Apache commons http client 4.5 и работает по крайней мере на данный момент:

    String urlStr = "https://www.nseindia.com/";
    File file = new File("C:\\User\\WorkSpace\\Output.txt");
    String userAgent = "-";

    CloseableHttpClient httpclient = HttpClients.custom().setUserAgent(userAgent).build();
    HttpGet httpget = new HttpGet(urlStr);
    httpget.addHeader("Accept-Language", "en-US");
    httpget.addHeader("Cookie", "");

    System.out.println("Executing request " + httpget.getRequestLine());
    try (CloseableHttpResponse response = httpclient.execute(httpget)) {
        System.out.println("----------------------------------------");
        System.out.println(response.getStatusLine());
        String body = EntityUtils.toString(response.getEntity());
        System.out.println(body);
        Files.writeString(file.toPath(), body);
    }

Запрос, который, например, работает из Firefox не работает с Java (потому что соединение TLS с протоколами и шифрами отличается). Я попробовал несколько комбинаций, используя Apache commons http client. но также не работает (даже если тот же запрос работает от Fiddler).

Следовательно, использование этого веб-сайта из Java чрезвычайно сложно, и даже приведенный выше код работает на данный момент, система защиты может быть адаптирована в любое время, чтобы он не работал снова.

Я бы предположил, что такой сайт предоставляет API, предназначенный для использования программой. Свяжитесь с ними и спросите, это единственный совет, который я могу вам дать.

...