HtmlUnit и идентичности фрагментов - PullRequest
4 голосов
/ 03 января 2011

В настоящее время мне интересно, как обращаться с идентификационными данными фрагментов, ссылка, с которой я хочу получить информацию, содержит идентификационные данные фрагментов. Кажется, что HtmlUnit отбрасывает «# / db4mj» моего URL и поэтому загружает исходный URL.

Кто-нибудь знает способ справиться с идентичностью фрагментов? (Я могу опубликовать пример кода для дальнейшего объяснения, если это будет необходимо)

EDIT

Поскольку у меня не было много просмотров (и ответов нет), я собираюсь добавить награду. Извините, это всего лишь 50, но у меня было только 79, чтобы начать с

РЕДАКТИРОВАТЬ

Вот пример кода по запросу.

Наш URL будет: http://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=0

Так что, если вы посмотрите на содержимое ссылки, вы увидите несколько кистей, которые также содержат URL-адреса. Так что мой скрипт захватывает URL: http://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=0#/dbwam4

Как вы можете видеть, есть идентификатор фрагмента # / dbwam4 Теперь я пытаюсь захватить контент, находящийся на этой странице, но HtmlUnit по-прежнему считает, что он находится на исходном URL.

Вот пример кода в моем скрипте, где он не работает на URL идентификатора фрагмента, но не имеет проблем с исходным URL.

client = new WebClient(BrowserVersion.FIREFOX_3)
client.javaScriptEnabled = false

page = client.getPage(url)       //url with fragment identifier

//this is on the url with the fragment identifier only, not the original url
img = page.getByXPath("*[@id="gmi-ResViewSizer_img"]")

Я ожидаю, что смогу получить определенную информацию из URL с идентификатором фрагмента, но не могу получить к ней доступ вообще.

1 Ответ

1 голос
/ 12 января 2011

Есть хорошие новости и плохие новости .

Во-первых, хорошая новость заключается в том, что HtmlUnit работает нормально.

Если вы посетите страницу с идентификатором фрагмента URL в браузере с отключенным JavaScript (возможно, с помощью плагина QuickJava для Firefox ), вы не увидите «вид одной кисти» что ты хочешь.

Таким образом, чтобы получить эту страницу, вам нужно использовать WebClient с setJavaScriptEnabled, установленным в true.

А теперь плохие новости:

Мне не всегда удавалось получить страницу «просмотра одной кистью», используя HtmlUnit с включенным JavaScript (я не знаю, почему). Хотя я иногда получал полную страницу.

Настоящая проблема в том, что состояние возвращаемого HTML настолько плохое, что не поддается попыткам его разобрать (я пытался TagSoup , jsoup , Jaxen, так далее). Поэтому я подозреваю, что попытка парсинга страницы с использованием XPath может не сработать.

Поэтому я бы подумал, что вам нужно прибегнуть к использованию регулярных выражений (что далеко от идеала) или даже использовать какой-то вариант String.indexOf ("gmi-ResViewSizer_img").

Надеюсь, это поможет.

EDIT

Мне удалось получить кое-что, что время от времени работает. Боюсь, я еще не преобразован в Groovy, поэтому он будет на простой старой Java.

Я не смотрел на источник HtmlUnit, но похоже, что что-то в процессе сохранения помогает заставить синтаксический анализ работать ?? Кажется, без сохранения я получаю NullPointerExceptions.

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.WebRequest;
import com.gargoylesoftware.htmlunit.WebResponse;
import com.gargoylesoftware.htmlunit.html.HtmlElement;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.util.FalsifyingWebConnection;
import java.io.File;
import java.io.IOException;

public class TestProblem {

    public static void main(String[] args) throws IOException {
        WebClient client = new WebClient(BrowserVersion.FIREFOX_3_6);
        client.setJavaScriptEnabled(true);
        client.setCssEnabled(false);
        String url = "http://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=0#/dbwam4";
        client.setThrowExceptionOnScriptError(false);
        client.setThrowExceptionOnFailingStatusCode(false);
        client.setWebConnection(new FalsifyingWebConnection(client) {

            @Override
            public WebResponse getResponse(final WebRequest request) throws IOException {
                if ("www.google-analytics.com".equals(request.getUrl().getHost())) {
                    return createWebResponse(request, "", "application/javascript"); // -> empty script
                }
                if ("d.unanimis.co.uk".equals(request.getUrl().getHost())) {
                    return createWebResponse(request, "", "application/javascript"); // -> empty script
                }
                if ("edge.quantserve.com".equals(request.getUrl().getHost())) {
                    return createWebResponse(request, "", "application/javascript"); // -> empty script
                }
                if ("b.scorecardresearch.com".equals(request.getUrl().getHost())) {
                    return createWebResponse(request, "", "application/javascript"); // -> empty script
                }
                //
                if (request.getUrl().toString().startsWith("http://st.deviantart.net/css/v6core_jc.js")) {
                    WebResponse wr = super.getResponse(request);
                    return createWebResponse(request, wr.getContentAsString(), "application/javascript");
                }
                if (request.getUrl().toString().startsWith("http://st.deviantart.net/css/v6loggedin_jc.js")) {
                    WebResponse wr = super.getResponse(request);
                    return createWebResponse(request, wr.getContentAsString(), "application/javascript");
                }
                return super.getResponse(request);
            }
        });

        HtmlPage page = client.getPage(url);       //url with fragment identifier



        File saveFile = new File("saved.html");
        if(saveFile.exists()){
            saveFile.delete();
            saveFile = new File("saved.html");
        }
        page.save(saveFile);


        HtmlElement img = page.getElementById("gmi-ResViewSizer_img");
        System.out.println(img.toString());

    }
}
...