Question

Так вот в чем дело. Я создаю робота-паука для веб-сайта, который сканирует все страницы продукта и записывает данные о продукте. Я использую C # и библиотеку WebClient для загрузки строки HTML. Сайт, который я сканирую, должен быть специально создан, потому что HTML, полученный от WebClient.DownloadString (), отличается от HTML, который я получаю при просмотре источника HTML при посещении его в браузере. Это кажется преднамеренным, потому что единственная информация, которую я не могу получить, - цена.

Кто-нибудь знает способ решения этой проблемы или кто-нибудь может объяснить, что происходит? Спасибо.

Ben Robinson · Answer 1 · 21 мая 2010

Вероятно, используется строка агента пользователя, чтобы решить, какой контент отправлять. Пример здесь показывает, как установить заголовок пользовательского агента.

WebClient.DownloadString () не производит точный HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

WebClient.DownloadString () не производит точный HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы