WebClient.DownloadString () не производит точный HTML - PullRequest
0 голосов
/ 20 мая 2010

Так вот в чем дело. Я создаю робота-паука для веб-сайта, который сканирует все страницы продукта и записывает данные о продукте. Я использую C # и библиотеку WebClient для загрузки строки HTML. Сайт, который я сканирую, должен быть специально создан, потому что HTML, полученный от WebClient.DownloadString (), отличается от HTML, который я получаю при просмотре источника HTML при посещении его в браузере. Это кажется преднамеренным, потому что единственная информация, которую я не могу получить, - цена.

Кто-нибудь знает способ решения этой проблемы или кто-нибудь может объяснить, что происходит? Спасибо.

1 Ответ

1 голос
/ 21 мая 2010

Вероятно, используется строка агента пользователя, чтобы решить, какой контент отправлять. Пример здесь показывает, как установить заголовок пользовательского агента.

...