Как извлечь адрес гиперссылки с веб-страницы - PullRequest
0 голосов
/ 14 октября 2019

Итак, я хочу извлечь конкретные адреса гиперссылок с этой веб-страницы: https://en.wikipedia.org/wiki/2012%E2%80%9313_NBA_season

, которые соответствуют определенному шаблону.

Я попробовал этот бит кода здесь:

url <- "https://en.wikipedia.org/wiki/2012%E2%80%9313_NBA_season"
webpage <- read_html(url)
links <- webpage %>% html_nodes("a[href*= wiki ]") %>% html_text() 
links

Но вместо самой ссылки получено только слово или фраза с гиперссылкой. Результатом, который я ищу, будет веб-адрес Гиперссылки в виде строки символов, но я не уверен, куда идти дальше.

Ответы [ 3 ]

0 голосов
/ 14 октября 2019

этот код, который я даю, будет работать в python и покажет все гиперссылки в результате

import csv  # file operations
from bs4 import BeautifulSoup as soup  # lib for pulling data from html/xmlsites
from urllib.request import urlopen as uReq  # lib for sending and rec info over http
Url = 'https://en.wikipedia.org/wiki/2012%E2%80%9313_NBA_season'
pageHtml = uReq(Url)
soup = soup(pageHtml,"html.parser") #parse the html
li = soup.find_all("li")
print(li)
0 голосов
/ 14 октября 2019

Если вы подумаете о том, чтобы сделать это на python, это может помочь вам получить все гиперссылки.

li = soup.find_all("a")
for link in li:
    if link.has_attr('href'):
        print (link.attrs['href'])
0 голосов
/ 14 октября 2019

Не текст, а атрибут, который определяет, куда ведут ссылки:

links <- webpage %>% html_nodes("a[href*= wiki ]") %>% html_attr('href')
...