Соскоб RSS поток не дает никаких результатов с помощью Scrapy - PullRequest
0 голосов
/ 02 июня 2019

Я использую Scrapy для очистки страницы, я пробовал много раз, и я убежден, что следующее (в оболочке) не работает и возвращает пустой результат:

response.xpath('//*[@class="itemtitle"]/a/text()').extract()

это то место, где в консоли Chrome это дает мне ожидаемый результат:

$x('//*[@class="itemtitle"]/a/text()')[0]

Я проверил robot.txt для целевого URL и обнаружил следующее:

User-agent: *
Disallow: /~a/

Я задаюсь вопросом, не позволено ли это поцарапать.

Итак, мой конкретный вопрос заключается в том, можно ли предотвратить соскоб роботов на определенных страницах?если не то, что может быть не так с моим кодом, это приводит к пустому результату в оболочке Scrapy.

1 Ответ

0 голосов
/ 02 июня 2019

Всегда проверяйте исходный HTML (обычно Ctrl+U в браузере).Вам нужно:

response.xpath('//item/title/text()').extract()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...