Я использую Scrapy для очистки страницы, я пробовал много раз, и я убежден, что следующее (в оболочке) не работает и возвращает пустой результат:
response.xpath('//*[@class="itemtitle"]/a/text()').extract()
это то место, где в консоли Chrome это дает мне ожидаемый результат:
$x('//*[@class="itemtitle"]/a/text()')[0]
Я проверил robot.txt для целевого URL и обнаружил следующее:
User-agent: *
Disallow: /~a/
Я задаюсь вопросом, не позволено ли это поцарапать.
Итак, мой конкретный вопрос заключается в том, можно ли предотвратить соскоб роботов на определенных страницах?если не то, что может быть не так с моим кодом, это приводит к пустому результату в оболочке Scrapy.