Scrapy получает совершенно другой HTML, чем тот, который браузер показывает в качестве исходного HTML - PullRequest
0 голосов
/ 28 августа 2018

Я занимаюсь поиском в сети в течение нескольких месяцев и пытаюсь подняться. Недавно я начал работать со скрапом. Я наткнулся на сайт, который поставил меня в тупик: https://www.comperdelivery.com.br/bebidas-3/c. Я не смог загрузить страницу в браузере без каких-либо писем и запросов.

Я пробовал несколько разных фрагментов кода, но по сути я работаю с этими командами в моем терминале:

scrapy shell https://www.comperdelivery.com.br/bebidas-3/c
>>> response.body

response.body полностью отличается от того, что я вижу в Firefox или Chrome, даже не имея такой же тег body. Я попытался указать правильный пользовательский агент, как этот, но безрезультатно, как предлагалось здесь :

scrapy shell https://www.comperdelivery.com.br/bebidas-3/c -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36"

Я понимаю, что, возможно, на сервере сайта происходит что-то, чего я не понимаю. Кто здесь может просветить меня?

...