Как тайм-аут запроса с помощью Html Agility Pack - PullRequest
6 голосов
/ 04 июля 2011

Я делаю запрос к удаленному веб-серверу, который в данный момент отключен (специально).

Я бы хотел выяснить, как лучше всего отложить запрос. В основном, если запрос выполняется дольше, чем «X» миллисекунд, затем закройте запрос и верните ответ null.

В настоящее время веб-запрос просто сидит и ждет ответа .....

Как мне лучше всего подойти к этой проблеме?

Вот текущий фрагмент кода

    public JsonpResult About(string HomePageUrl)
    {
        Models.Pocos.About about = null;
        if (HomePageUrl.RemoteFileExists())
        {
            // Using the Html Agility Pack, we want to extract only the
            // appropriate data from the remote page.
            HtmlWeb hw = new HtmlWeb();
            HtmlDocument doc = hw.Load(HomePageUrl);
            HtmlNode node = doc.DocumentNode.SelectSingleNode("//div[@class='wrapper1-border']");

            if (node != null)
            { 
                about = new Models.Pocos.About { html = node.InnerHtml };
            }
                //todo: look into whether this else statement is necessary
            else 
            {
                about = null;
            }
        }

        return this.Jsonp(about);
    }

Ответы [ 4 ]

5 голосов
/ 25 ноября 2012

Html Agility Pack - это открытый соус.Вот почему вы можете изменить исходный текст самостоятельно.Сначала добавьте этот код в класс HtmlWeb :

private int _timeout = 20000;

public int Timeout 
    { 
        get { return _timeout; } 
        set
        {
            if (_timeout < 1) 
                throw new ArgumentException("Timeout must be greater then zero.");
            _timeout = value;
        }
    }

Затем найдите этот метод

private HttpStatusCode Get(Uri uri, string method, string path, HtmlDocument doc, IWebProxy proxy, ICredentials creds)

и измените его:

req = WebRequest.Create(uri) as HttpWebRequest;
req.Method = method;
req.UserAgent = UserAgent;
req.Timeout = Timeout; //add this

Или что-то в этом роде:

htmlWeb.PreRequest = request =>
            {
                request.Timeout = 15000;
                return true;
            };
5 голосов
/ 04 июля 2011

Извлеките свою веб-страницу с помощью этого метода:

private static string retrieveData(string url)
    {
        // used to build entire input
        StringBuilder sb = new StringBuilder();

        // used on each read operation
        byte[] buf = new byte[8192];

        // prepare the web page we will be asking for
        HttpWebRequest request = (HttpWebRequest)
        WebRequest.Create(url);
        request.Timeout = 10; //10 millisecond
        // execute the request

        HttpWebResponse response = (HttpWebResponse)
        request.GetResponse();

        // we will read data via the response stream
        Stream resStream = response.GetResponseStream();

        string tempString = null;
        int count = 0;

        do
        {
            // fill the buffer with data
            count = resStream.Read(buf, 0, buf.Length);

            // make sure we read some data
            if (count != 0)
            {
                // translate from bytes to ASCII text
                tempString = Encoding.ASCII.GetString(buf, 0, count);

                // continue building the string
                sb.Append(tempString);
            }
        }
        while (count > 0); // any more data to read?

        return sb.ToString();
    }

И чтобы использовать пакет Agility для HTML и извлечь html-тег, например:

public static string htmlRetrieveInfo()
    {
        string htmlSource = retrieveData("http://example.com/test.html");
        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(htmlSource);
        if (doc.DocumentNode.SelectSingleNode("//body") != null)
        {
          HtmlNode node = doc.DocumentNode.SelectSingleNode("//body");
        }
        return node.InnerHtml;
    }
2 голосов
/ 04 июля 2011

Мне пришлось внести небольшую корректировку в мой первоначально опубликованный код

    public JsonpResult About(string HomePageUrl)
    {
        Models.Pocos.About about = null;
        // ************* CHANGE HERE - added "timeout in milliseconds" to RemoteFileExists extension method.
        if (HomePageUrl.RemoteFileExists(1000))
        {
            // Using the Html Agility Pack, we want to extract only the
            // appropriate data from the remote page.
            HtmlWeb hw = new HtmlWeb();
            HtmlDocument doc = hw.Load(HomePageUrl);
            HtmlNode node = doc.DocumentNode.SelectSingleNode("//div[@class='wrapper1-border']");

            if (node != null)
            { 
                about = new Models.Pocos.About { html = node.InnerHtml };
            }
                //todo: look into whether this else statement is necessary
            else 
            {
                about = null;
            }
        }

        return this.Jsonp(about);
    }

Затем я изменил мой RemoteFileExists метод расширения, чтобы установить тайм-аут

    public static bool RemoteFileExists(this string url, int timeout)
    {
        try
        {
            //Creating the HttpWebRequest
            HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;

            // ************ ADDED HERE
            // timeout the request after x milliseconds
            request.Timeout = timeout;
            // ************

            //Setting the Request method HEAD, you can also use GET too.
            request.Method = "HEAD";
            //Getting the Web Response.
            HttpWebResponse response = request.GetResponse() as HttpWebResponse;
            //Returns TRUE if the Status code == 200
            return (response.StatusCode == HttpStatusCode.OK);
        }
        catch
        {
            //Any exception will returns false.
            return false;
        }
    }

В этом подходе, если мой тайм-аут срабатывает до того, как RemoteFileExists сможет определить ответ заголовка, тогда мой bool вернет false.

0 голосов
/ 04 июля 2011

Вы можете использовать стандартный запрос HttpWebRequest для извлечения удаленного ресурса и установить свойство Timeout .Затем передайте полученный HTML-код, если он преуспеет, в пакет Agility Pack для анализа.

...