Как изменить код, чтобы он мог загружать PDF-файлы из других PDF-файлов, а также - PullRequest
0 голосов
/ 03 июня 2019

Мне нужно кодировать что-то, что принимает URL или PDF, а затем загружает все PDF-файлы на этой странице.Пока это работает, когда я помещаю веб-страницу, но ввод PDF-файлов не работает.У меня очень мало опыта работы с Python, и я понимаю, что это потому, что BeautifulSoup работает только с файлами HTML и XML, поэтому мне было интересно, было ли что-то такое же с PDF-файлами.

import os
import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup

url = input("Please enter the URL ")
folder_location = input("Please enter the folder location(ie. C:\ExampleFolder) ")

#If there is no such folder, the script will create one automatically
if not os.path.exists(folder_location):os.mkdir(folder_location)

response = requests.get(url)
soup= BeautifulSoup(response.text, "html.parser")
for link in soup.select("a[href$='.pdf']"):
    #Name the pdf files using the last portion of each link which are unique in this case
    filename = os.path.join(folder_location,link['href'].split('/')[-1])
    with open(filename, 'wb') as f:
        f.write(requests.get(urljoin(url,link['href'])).content)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...