Невозможно очистить данные с сайта Bloomberg с помощью Scrapy - PullRequest
0 голосов
/ 03 июня 2019

Привет, я просто хотел очистить "Заголовок" и "дату публикации" на этом веб-сайте bloomberg, и я уверен, что я использую правильный response.xpath, но он всегда не получает ничего.

response.xpath("//h1[@class = 'lede-text-v2__hed']").extract_first()
response.xpath("//meta[@property = 'og:title']/@content").extract_first()

Ни одному из двух я не могу получить титул

также в опубликованной дате

response.xpath("//time[@class = 'article-timestamp']/@datetime").extract_first()

ничего не получается, есть идеи, пожалуйста?

вот URL

https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker

Спасибо!

1 Ответ

1 голос
/ 03 июня 2019

Вы обнаружены как бот.

Используйте scrapy shell <url> и view(response), чтобы увидеть ответ, который вы получаете.

Меры по предотвращению обнаружения включают в себя:

  • Используйте интеллектуальный прокси-сервер, если вы можете себе его позволить.

  • Попробуйте сделать свои запросы более похожими на запросы вашего веб-браузера.

  • Использовать Splash.

В двух последних случаях будьте готовы также использовать несколько прокси-серверов на случай, если они заблокируют ваш IP-адрес из-за неожиданно высокой активности.

...