Результат Scrapy не совпадает с тем, что я вижу, когда нажимаю на ссылку, которую Scrapy говорит, что она сканирует - PullRequest
0 голосов
/ 21 февраля 2019

это мой первый вопрос

Я сейчас работаю над пауком Scrapy, и он не дал ожидаемого результата.Я пытаюсь получить все ссылки со страницы, но не получаю ни одной из них.В частности, с этой страницы Я хочу все ссылки на товары.Для их выбора я использую

rug_urls = response.xpath('//a[@class="a-link-normal a-text-normal"]/@href').getall()

, но это ничего не дает.Поэтому, чтобы посмотреть, что получится, я использовал

rug_urls = response.xpath('//a').getall()

, и это дает мне

[u'<a onclick="window.location.reload()">Try different image</a>', 
u'<a href="https://www.amazon.com/gp/help/customer/display.html/ref=footer_cou?ie=UTF8&amp;nodeId=508088">Conditions of Use</a>', 
u'<a href="https://www.amazon.com/gp/help/customer/display.html/ref=footer_privacy?ie=UTF8&amp;nodeId=468496">Privacy Policy</a>']

, который, похоже, не совпадает с сайтом вообще.Тем не менее, вывод на консоль определенно говорит мне, что это ссылка, которая сканируется.Я особенно запутался, потому что раньше мой код работал как задумано, но только один раз, и с тех пор он не изменился сколько-нибудь значимым образом.Любая помощь будет принята с благодарностью.Заранее спасибо.

1 Ответ

0 голосов
/ 22 февраля 2019

Спасибо за помощь всем.

Вывод был не таким, как ожидалось, исходя из того, что я увидел, когда щелкнул ссылку, предоставленную выходом консоли, потому что паук получал доказательство того, что выне страница робота от amazon в качестве ответа.

Я обнаружил это с помощью self.logger.info(response.body), чтобы увидеть ответ, полученный моим пауком

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...