Исключение при загрузке данных с сайта HTTPS - PullRequest
2 голосов
/ 01 февраля 2011

Я работаю над siteripper / screenscraper для поиска информации об отслеживании на сайте Royal Mail. К сожалению, Royal Mail не поддерживает API, так что это способ сделать это.

Я продолжаю получать одно и то же исключение, независимо от того, что я делаю. ( Удаленный сервер возвратил ошибку: (500) Внутренняя ошибка сервера. )

Мой базовый код:

class Program
{
    static void Main(string[] args)
    {
        string url = "http://track.royalmail.com/portal/rm/track?catId=22700601&gear=authentication&forcesegment=SG-Personal";
        byte[] response;

        WebClient webClient = new WebClient();
        response = webClient.DownloadData(url);
    }
}

Я использовал Fiddler, чтобы исследовать транзакции данных, сделанные моим браузером, чтобы имитировать это в моем коде. Я вижу, что Royal Mail использует файлы cookie, поэтому я попытался внедрить WebClient, который поддерживает файлы cookie, добавив в него обработчик файлов cookie:

public class CookieAwareWebClient : WebClient
{
    private CookieContainer m_container = new CookieContainer();

    protected override WebRequest GetWebRequest(Uri address)
    {
        WebRequest request = base.GetWebRequest(address);
        if (request is HttpWebRequest)
        {
            (request as HttpWebRequest).CookieContainer = m_container;
        }
        return request;
    }
}

Но это не помогло друг другу: - (

Я также пытался найти информацию об отслеживании через защищенный SSL сайт Royal Mails (https://www.royalmail.com/portal/sme/track?catId=62200738&mediaId=63900708), и внедрение учетных данных в мою программу на C #, но безуспешно.

Я встретил стену и продолжаю сталкиваться с теми же учебными пособиями / темами, которые, похоже, больше мне не помогают.

Я надеюсь, что там есть блестящий мозг: -)

1 Ответ

3 голосов
/ 01 февраля 2011

Если вы отправляете все заголовки, вы должны прекратить получать ошибку 500

string url = "http://track.royalmail.com/portal/rm/trackresults?catId=22700601&pageId=trt_rmresultspage&keyname=track_blank&_requestid=17931"; 
using(WebClient webClient = new WebClient()) {
    webClient.Headers["User-Agent"] = "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.2.6) Gecko/20100625 Firefox/3.6.6 (.NET CLR 3.5.30729)";
    webClient.Headers["Accept"] = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
    webClient.Headers["Accept-Language"] = "en-us,en;q=0.5";
    webClient.Headers["Accept-Encoding"] = "    gzip,deflate";
    webClient.Headers["Accept-Charset"] = "ISO-8859-1,utf-8;q=0.7,*;q=0.7";
    byte[] response = webClient.DownloadData(url); 
}
...