Селен скачать файл Excel с URL, но просто получить код JS - PullRequest
0 голосов
/ 04 марта 2019

Я пытаюсь скачать файл Excel с его URL, но я просто могу получить код js, я не знаю, как получить правильный файл, а не просто код js.

мой код:

# -*- coding: utf-8 -*-



from selenium import webdriver
import io
import re

path = 'C:/Program Files (x86)/Google/Chrome/Application/chromedriver.exe'
download_url ="http://samr.cfda.gov.cn/directory/web/WS01/images/localgov/gov_1540501658076.xls"  #url i have 


chrome_options = webdriver.ChromeOptions()
#chrome_options.add_argument('--headless')  #headless mode 
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')

prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': 'd:\\new'}
chrome_options.add_experimental_option('prefs', prefs)


client = webdriver.Chrome(path,chrome_options=chrome_options)


try:
    client.get(download_url)
except TimeoutError:
    print("time too long")

print(client.page_source)
client.quit()


любая помощь будет признательна

1 Ответ

0 голосов
/ 04 марта 2019

Хотя распечатка не изменится, добавьте короткое ожидание, чтобы файл мог загружаться

# -*- coding: utf-8 -*-

from selenium import webdriver
import time

path = 'C:/Program Files (x86)/Google/Chrome/Application/chromedriver.exe'
download_url ="http://samr.cfda.gov.cn/directory/web/WS01/images/localgov/gov_1540501658076.xls"  #url i have 

chrome_options = webdriver.ChromeOptions()
#chrome_options.add_argument('--headless')  #headless mode 
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')

prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': 'd:\\new'}
chrome_options.add_experimental_option('prefs', prefs)

client = webdriver.Chrome(path,chrome_options=chrome_options)

try:
    client.get(download_url)
    time.sleep(5)
except TimeoutError:
    print("time too long")

print(client.page_source)
client.quit()
...