bind_rows выбрасывает недостающую информацию для нескольких ссылок - PullRequest
0 голосов
/ 12 ноября 2018

РЕДАКТИРОВАТЬ: я проверил отмеченную дублированную ссылку и нашел несколько полезных указаний.

Теперь проблема в том, что когда я пропускаю несколько ссылок через bind_rows, она не извлекает требуемую ссылку. В моем случае это работает для одной ссылки, но не для нескольких в векторе.

Желаемая выходная ссылка - это та, которая содержит следующий текст в очищенных ссылках

https://resource.basware.com

ЭТО РАБОТАЕТ:

   url <- c("https://www.basware.com/en-us/blog/october-2018/what-are-zombie-and-ghost-assets")

    bind_rows(lapply(url, function(x) {

      data.frame(url = x, toc_entry=toc <- read_html(url[1]) %>%
                   html_nodes("a")     %>%
                   html_attr("href")) 

    })) -> toc_entries

ЭТО НЕ РАБОТАЕТ:

url <- c("https://www.basware.com/en-us/blog/november-2018/its-not-magic-its-a-perfect-fit-how-basware-ensures-your-p2p-deployment-leaves-nothing-behind",
         "https://www.basware.com/en-us/blog/november-2018/best-of-2018-blogs-digital-change-in-procurement",
        "https://www.basware.com/en-us/blog/november-2018/7-ways-machine-learning-enhances-purchase-to-pay",
        "https://www.basware.com/en-us/blog/october-2018/what-are-zombie-and-ghost-assets")


bind_rows(lapply(url, function(x) {

  data.frame(url = x, toc_entry=toc <- read_html(url[1]) %>%
               html_nodes("a")     %>%
               html_attr("href")) 

})) -> toc_entries

Это не выдает никакой ошибки, но просто не дает мне ссылки, которые содержат "https://resource.basware.com".

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...