Итак, я хочу извлечь конкретные адреса гиперссылок с этой веб-страницы: https://en.wikipedia.org/wiki/2012%E2%80%9313_NBA_season
, которые соответствуют определенному шаблону.
Я попробовал этот бит кода здесь:
url <- "https://en.wikipedia.org/wiki/2012%E2%80%9313_NBA_season" webpage <- read_html(url) links <- webpage %>% html_nodes("a[href*= wiki ]") %>% html_text() links
Но вместо самой ссылки получено только слово или фраза с гиперссылкой. Результатом, который я ищу, будет веб-адрес Гиперссылки в виде строки символов, но я не уверен, куда идти дальше.
этот код, который я даю, будет работать в python и покажет все гиперссылки в результате
import csv # file operations from bs4 import BeautifulSoup as soup # lib for pulling data from html/xmlsites from urllib.request import urlopen as uReq # lib for sending and rec info over http Url = 'https://en.wikipedia.org/wiki/2012%E2%80%9313_NBA_season' pageHtml = uReq(Url) soup = soup(pageHtml,"html.parser") #parse the html li = soup.find_all("li") print(li)
Если вы подумаете о том, чтобы сделать это на python, это может помочь вам получить все гиперссылки.
li = soup.find_all("a") for link in li: if link.has_attr('href'): print (link.attrs['href'])
Не текст, а атрибут, который определяет, куда ведут ссылки:
links <- webpage %>% html_nodes("a[href*= wiki ]") %>% html_attr('href')