Question

Привет, я просто хотел очистить "Заголовок" и "дату публикации" на этом веб-сайте bloomberg, и я уверен, что я использую правильный response.xpath, но он всегда не получает ничего.

response.xpath("//h1[@class = 'lede-text-v2__hed']").extract_first()
response.xpath("//meta[@property = 'og:title']/@content").extract_first()

Ни одному из двух я не могу получить титул

также в опубликованной дате

response.xpath("//time[@class = 'article-timestamp']/@datetime").extract_first()

ничего не получается, есть идеи, пожалуйста?

вот URL

https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker

Спасибо!

Gallaecio · Answer 1 · 03 июня 2019

Вы обнаружены как бот.

Используйте scrapy shell <url> и view(response), чтобы увидеть ответ, который вы получаете.

Меры по предотвращению обнаружения включают в себя:

Используйте интеллектуальный прокси-сервер, если вы можете себе его позволить.
Попробуйте сделать свои запросы более похожими на запросы вашего веб-браузера.
Использовать Splash.

В двух последних случаях будьте готовы также использовать несколько прокси-серверов на случай, если они заблокируют ваш IP-адрес из-за неожиданно высокой активности.

Невозможно очистить данные с сайта Bloomberg с помощью Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Невозможно очистить данные с сайта Bloomberg с помощью Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы