Браузер не поддерживает фреймы - PullRequest
0 голосов
/ 12 июля 2011

Я пытаюсь создать Java-программу, которая выполняет вход в систему для экземпляра achievo . Я пытаюсь использовать Screen Scraping .

Мне удается войти, используя следующий код:

@Test
public void testLogin() throws Exception {
    HashMap<String, String> data = new HashMap<String, String>();
    data.put("auth_user", "user");
    data.put("auth_pw", "password");
    doSubmit("https://someurl.com/achievo/index.php", data);
}

private void doSubmit(String url, HashMap<String, String> data) throws Exception {
    URL siteUrl = new URL(url);
    HttpsURLConnection conn = (HttpsURLConnection) siteUrl.openConnection();
    conn.setRequestMethod("POST");
    conn.setDoOutput(true);
    conn.setDoInput(true);
    //conn.setRequestProperty( "User-agent", "spider" );
    //conn.setRequestProperty("User-agent", "Opera/9.80 (X11; Linux i686; U; en) Presto/2.7.62 Version/11.01");

    conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705; .NET CLR 1.1.4322; .NET CLR 1.2.30703)");

    DataOutputStream out = new DataOutputStream(conn.getOutputStream());

    Set<String> keys = data.keySet();
    Iterator<String> keyIter = keys.iterator();
    StringBuilder content = new StringBuilder("");
    for(int i=0; keyIter.hasNext(); i++) {
        Object key = keyIter.next();
        if(i!=0) {
            content.append("&");
        }
        content.append(key + "=" + URLEncoder.encode(data.get(key), "UTF-8"));
    }
    System.out.println(content.toString());

    out.writeBytes(content.toString());
    out.flush();
    out.close();
    BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream()));
    String line = "";
    while((line=in.readLine())!=null) {
        System.out.println(line);
    }
    in.close();
}

Однако, когда achievo успешно входит в систему, я перенаправляюсь на главную страницу, где он говорит:

<head>
    <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
    <title>Achievo</title>
  </head>
    <frameset rows="113,*" frameborder="0" border="0">
    <frame name="top" scrolling="no" noresize src="top.php?atklevel=-1&atkprevlevel=0&achievo=37b552462afdfd248a21fedbf0eebe43" marginwidth="0" marginheight="0">
    <frameset cols="210,*" frameborder="0" border="0">
      <frame name="menu" scrolling="no" noresize src="menu.php?atklevel=-1&atkprevlevel=0&achievo=37b552462afdfd248a21fedbf0eebe43" marginwidth="0" marginheight="0">
      <frame name="main" scrolling="auto" noresize src="dispatch.php?atknodetype=pim.pim&atkaction=pim&atklevel=-1&atkprevlevel=0&achievo=37b552462afdfd248a21fedbf0eebe43" marginwidth="0" marginheight="0">
    </frameset>
    <noframes>
      <body bgcolor="#CCCCCC" text="#000000">
        <p>Your browser doesnt support frames, but this is required to run Achievo</p>
      </body>
    </noframes>
  </frameset>

Очевидно, я получаю Ваш браузер не поддерживает фреймы, но это необходимо для запуска Achievo .

Я попытался получить прямой доступ к фрейму dispatch.php, поскольку это то, что я, вероятно, хочу, однако, он сообщает, что мой сеанс истек, и что мне нужно повторно войти в систему.

Есть ли способ подделать кадр? Или как-то сохранить соединение, изменить URL и попытаться получить фрейм dispatch.php?


Используя HtmlUnit, я сделал следующее:

WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3);
HtmlPage page = webClient.getPage("https://someurl.com/index.php");
System.out.println(page.asXml());

List<HtmlForm> forms = page.getForms();
assertTrue(forms != null && !forms.isEmpty());

HtmlForm form = forms.get(0);
HtmlSubmitInput submit = form.getInputByName("login");
HtmlInput inputUsername = form.getInputByName("auth_user");
HtmlInput inputPw = form.getInputByName("auth_pw");

inputUsername.setValueAttribute("foo");
inputPw.setValueAttribute("bar");

HtmlPage page2 = submit.click();

CookieManager cookieManager = webClient.getCookieManager();
Set<Cookie> cookies = cookieManager.getCookies();
System.out.println("Is cookie " + cookieManager.isCookiesEnabled());

for(Cookie cookie : cookies) {
    System.out.println(cookie.toString());
}

System.out.println(page2.asXml());
webClient.closeAllWindows();

Здесь я получаю форму, отправляю ее и получаю то же сообщение. Когда я также распечатываю, я вижу, что у меня есть печенье. Теперь вопрос заключается в том, как мне получить фрейм dispatch.php с помощью файла cookie, вошедшего в систему?

Ответы [ 2 ]

1 голос
/ 12 июля 2011

Вам нужно будет извлечь URL основного фрейма (dispatch.php?atknodetype=pim.pim&atkaction=pim&atklevel=-1&atkprevlevel=0&achievo=37b552462afdfd248a21fedbf0eebe43) и сделать второй запрос на этот URL.Если файлы cookie используются для отслеживания сеансов, вам также придется отправлять файлы cookie, содержащиеся в ответе на ваш запрос входа в систему.

Я бы использовал для этого API более высокого уровня (например, Apache HttpClient).) или даже программный браузер, такой как HtmlUnit .

1 голос
/ 12 июля 2011

Этот вид очистки немного сложен, необходимо учитывать несколько факторов.

  1. Устанавливает ли приложение Achieve файлы cookie?Если это так, вам нужно будет принять их и отправить их со следующим запросом.Я думаю
  2. Судя по всему, вам нужно будет проанализировать эту HTML-страницу и извлечь кадр, который вы хотите загрузить.Я подозреваю, что вы получаете сообщение об истечении сеанса, потому что вы не отправляете куки или что-то в этом роде.Вам необходимо убедиться, что вы используете точный URL-адрес, указанный во FRAMESET.

Я предлагаю использовать Apache HttpClient модуль , который немного более функционален, чем стандартный Java-URLпровайдер, и может управлять такими вещами, как куки для вас.

...