Я хочу сканировать веб-сайт с Python, но я столкнулся с проблемой.Библиотека запросов в порядке, но 400 с Scrapy, код ниже - PullRequest
0 голосов
/ 31 января 2019

Я хочу сканировать веб-сайт на Python, но у меня возникла проблема.библиотека запросов в порядке, но 400 с Scrapy, код ниже

import requests

urls = "https://pan.baidu.com/s/1sj1JLJv"
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.5,en;q=0.3",
    "Accept-Encoding": "gzip, deflate",
    'Content-Length': '0',
    "Connection": "keep-alive"<br>
}
print(str((requests.get(urls, headers=header)).content, 'utf-8'))


from scrapy_redis.spiders import RedisCrawlSpider
class baiduuSpider(RedisCrawlSpider):
    ...
    ...
    ...
    urls = "https://pan.baidu.com/s/1sj1JLJv" 
    yield scrapy.Request(url = urls,headers = headers,callback = self.first_parse)

    def first_parse(self, response):
        print(response.body.decode('utf-8'))

Как мне решить этот вопрос

1 Ответ

0 голосов
/ 31 января 2019

Извините, но у вас ничего не получится, потому что страница загружается динамически.

enter image description here

Необходимо скомпилировать javascript наfly - Selenium, Splash

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...