Как получить все ссылки на веб-странице с помощью запросов - html - PullRequest
0 голосов
/ 30 мая 2020

Я новичок в веб-синтаксическом анализе и хочу создать программу, которая получает все внутренние и внешние ссылки на веб-странице, и я вообще не знаю, как это сделать, и все, что я написал, это

from requests_html import *

sss = HTMLSession()
k = sss.get('https://en.wikipedia.org/wiki')
hhh = HTML(html=k.html.html)
print(hhh.find('href'))

Я не знаю, почему он печатает [], когда теги href везде. Заранее спасибо

1 Ответ

0 голосов
/ 30 мая 2020

Вы можете получить все внутренние и внешние ссылки, используя приведенный ниже код. Код преобразует все относительные ссылки в абсолютные.

from requests_html import HTMLSession

base_url = 'https://en.wikipedia.org'
sss = HTMLSession()
k = sss.get('https://en.wikipedia.org/wiki')
links = k.html.absolute_links
print(links)
...