РЕДАКТИРОВАТЬ: я проверил отмеченную дублированную ссылку и нашел несколько полезных указаний.
Теперь проблема в том, что когда я пропускаю несколько ссылок через bind_rows
, она не извлекает требуемую ссылку. В моем случае это работает для одной ссылки, но не для нескольких в векторе.
Желаемая выходная ссылка - это та, которая содержит следующий текст в очищенных ссылках
https://resource.basware.com
ЭТО РАБОТАЕТ:
url <- c("https://www.basware.com/en-us/blog/october-2018/what-are-zombie-and-ghost-assets")
bind_rows(lapply(url, function(x) {
data.frame(url = x, toc_entry=toc <- read_html(url[1]) %>%
html_nodes("a") %>%
html_attr("href"))
})) -> toc_entries
ЭТО НЕ РАБОТАЕТ:
url <- c("https://www.basware.com/en-us/blog/november-2018/its-not-magic-its-a-perfect-fit-how-basware-ensures-your-p2p-deployment-leaves-nothing-behind",
"https://www.basware.com/en-us/blog/november-2018/best-of-2018-blogs-digital-change-in-procurement",
"https://www.basware.com/en-us/blog/november-2018/7-ways-machine-learning-enhances-purchase-to-pay",
"https://www.basware.com/en-us/blog/october-2018/what-are-zombie-and-ghost-assets")
bind_rows(lapply(url, function(x) {
data.frame(url = x, toc_entry=toc <- read_html(url[1]) %>%
html_nodes("a") %>%
html_attr("href"))
})) -> toc_entries
Это не выдает никакой ошибки, но просто не дает мне ссылки, которые содержат "https://resource.basware.com"
.