Python не может получить целую веб-страницу - PullRequest
0 голосов
/ 26 июля 2011

Я работаю над проектом скрапа, чтобы очистить некоторые данные на http://58.com

Я обнаружил, что при использовании скрапа для очистки его страницы на странице отсутствуют некоторые элементы.

Я думаю, что это может иметь какое-то отношение к заголовкам запросов, поэтому я копирую пользовательский агент Firefox на поддельный, просто чтобы обнаружить, что он не работает.

в чем может быть проблема и как я могу ее решить?


Я считаю, что проблема в том, что веб-страница использует ajax для загрузки некоторых данных, именно эти данные я не могу найти.

Ответы [ 2 ]

1 голос
/ 26 июля 2011

используйте urllib2, попробуйте этот req.add_header («User-Agent», «Mozilla / 4.0 (совместимо; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)»)

Я могу передать запрос

0 голосов
/ 26 июля 2011

Существует python-связывание libcurl с именем pycurl.Я использую pycurl, чтобы подражать поведению людей при посещении веб-сайта, и это работает хорошоДля разбора html, Beautifulsoup - лучший выбор, вы можете легко получить то, что вы хотите, из html, который вы получили с помощью pycurl.

...