Я очищаю веб-сайт, доступный по этой ссылке , используя Beautiful Soup. Идея состоит в том, чтобы загрузить все href
, содержащие строку .pdf
, используя модуль get
.
Приведенный ниже код демонстрирует процедуру и работает по назначению:
filename = 'new_name.pdf'
url_to_download_pdf='https://bradscholars.brad.ac.uk/https://www.brad.ac.uk/library/additional-help/bradford-scholars-faqs/digital_preservation_policy.pdf'
with open(filename, 'wb') as f:
f.write(requests.get(url_to_download_pdf).content)
Однако есть случай, когда URL-адрес, такой как приведенный выше (т.е. переменная url_to_download_pdf
), ведет на страницу Page not found
. В результате загружается непригодный и нечитаемый PDF-файл.
Открытие файла с помощью pdf reader в Windows дает следующее предупреждение:
введите описание изображения здесь
Мне любопытно, есть ли способы избежать доступа и загрузки недопустимого файла pdf
?