Как использовать селен для сохранения файлов, найденных в ссылках? - PullRequest
0 голосов
/ 23 мая 2018

В Python 3 у меня есть этот код с использованием селена для автоматизации поиска по сайту:

from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

binary = FirefoxBinary('/usr/lib/firefox/firefox')
ff = webdriver.Firefox(firefox_binary=binary)

ff.get('http://www.stf.jus.br/portal/diariojusticaeletronico/pesquisardiarioeletronico.asp#')

ff.find_element_by_id('argumento').send_keys('PPP')

ff.find_element_by_xpath('/html/body/div/div[3]/div[2]/div[2]/div[2]/form/table/tbody/tr[3]/td/input[1]').click()

Код вводит сайт и ищет буквы «PPP»"на кнопке" PESQUISAR "

В результате получается таблица со ссылками на PDF-файлы.PDF-файлы, которые я хочу, находятся в столбце «Интеграл»

. Есть ли способ автоматического сохранения каждого PDF-файла, найденного по ссылкам в столбце «Интеграл»?

1 Ответ

0 голосов
/ 23 мая 2018

Если вы хотите, вы можете использовать requests, я хочу протестировать, но у меня нет разрешения, я пытаюсь открыть ссылку, попробуйте это, если у вас есть разрешение, сохраните все ссылки, которые вам нужны, и после этого используйте * 1002.*:

import requests
file_url = "http://www.stf.jus.br/portal/diariojusticaeletronico/verDiarioEletronico.asp?seq=14880745&data=23/05/2018&ano=2018&numero=101"

r = requests.get(file_url, stream = True)

with open("x.pdf","wb") as pdf:
    for chunk in r.iter_content(chunk_size=1024):

    # writing one chunk at a time to pdf file
    if chunk:
        pdf.write(chunk)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...