Получение нулевого результата, очищающего xmtml - PullRequest
0 голосов
/ 06 июля 2019

Я новичок в использовании скрапа, и на этой странице я получил нулевой результат. Я пытался просканировать эту страницу https://www.fincaraiz.com.co/finca-raiz/arrendamientos/medellin/ в Ордене, чтобы получить информацию о ценах, размерах и показателях недвижимости в Медельине, но я смог.

Я попытался найти некоторые узлы, но оболочка показывает только ту информацию, которую я запрашивал, не существует. После оболочки на этой странице есть только HTML-теги.

Я использовал это в orden, чтобы получить какой-то результат, но он не работает

response.css('*').getall()

Это фактический результат

[<Selector xpath='descendant-or-self::*' data='<html></html>'>]

и это

['<html></html>']

Спасибо

1 Ответ

1 голос
/ 07 июля 2019

Вам нужно установить заголовок User-Agent, чтобы получить правильный ответ:

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36" https://www.fincaraiz.com.co/finca-raiz/arrendamientos/medellin/

Просто отредактируйте settings.py:

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

После этого вы сможете получить URL всех свойств:

response.xpath('//a[.//h2]/@href').getall()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...