Question

Я использую Scrapy для очистки страницы, я пробовал много раз, и я убежден, что следующее (в оболочке) не работает и возвращает пустой результат:

response.xpath('//*[@class="itemtitle"]/a/text()').extract()

это то место, где в консоли Chrome это дает мне ожидаемый результат:

$x('//*[@class="itemtitle"]/a/text()')[0]

Я проверил robot.txt для целевого URL и обнаружил следующее:

User-agent: *
Disallow: /~a/

Я задаюсь вопросом, не позволено ли это поцарапать.

Итак, мой конкретный вопрос заключается в том, можно ли предотвратить соскоб роботов на определенных страницах?если не то, что может быть не так с моим кодом, это приводит к пустому результату в оболочке Scrapy.

gangabass · Answer 1 · 02 июня 2019

Всегда проверяйте исходный HTML (обычно Ctrl+U в браузере).Вам нужно:

response.xpath('//item/title/text()').extract()

Соскоб RSS поток не дает никаких результатов с помощью Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Соскоб RSS поток не дает никаких результатов с помощью Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов