Извлечь URL-адрес из гиперссылки внутри исходного кода веб-сайта - PullRequest
0 голосов
/ 16 июня 2020

Я пытаюсь использовать BeautifulSoup для анализа файлов PDF из Xtremepapers :

HTML Source code at:

Однако атрибут href в теге привязки содержит своего рода гиперссылка на страницу загрузки для этого конкретного PDF-файла, а не прямую ссылку для загрузки.

Мне нужна помощь в извлечении ссылки для загрузки и ее сохранении на жесткий диск с помощью какого-нибудь Python скрипта.

1 Ответ

0 голосов
/ 16 июня 2020

Хорошо, я новичок в этом, так что это может быть ухабисто. Но похоже, что вы используете элемент inspect, а не инструменты разработчика.

Если вы используете инструменты разработчика, нажмите refre sh на веб-сайт, а затем нажмите математическое имя, вы увидите настоящий html. и вы можете видеть, что каждый PDF-файл связан следующим образом:

 a_tag = <a class="autoindex_a" href="9709_2007_syllabus.pdf">
<img width="16" height="16" alt="[pdf]" src="/images/icons/pdf.png" />
9709_2007_syllabus.pdf </a> 

end_url = a_tag.get('href', None)

print(end_url)

>>9709_2007_syllabus.pdf

Затем вам просто нужно прикрепить этот бит к URL-адресу веб-сайта 'https://papers.xtremepape.rs/CAIE/AS%20and%20A%20Level/Mathematics%20 (9709) / '

full_url = 'https://papers.xtremepape.rs/CAIE/AS%20and%20A%20Level/Mathematics%20(9709)/' + end_url

print(full_url)  >>https://papers.xtremepape.rs/CAIE/AS%20and%20A%20Level/Mathematics%20(9709)/9709_2007_syllabus.pdf

Итак, вы заканчиваете этой ссылкой, которая ведет к thd pdf: https://papers.xtremepape.rs/CAIE/AS%20and%20A%20Level/Mathematics%20 (9709) /9709_2007_syllabus.pdf

...