Извлечение ссылок из документа HTML - PullRequest
0 голосов
/ 05 ноября 2019

У меня есть необработанный HTML-файл, который я извлекаю с веб-сайта (CONTR + SHIFT + I в Chrome). Теперь я загружаю этот файл в R, используя следующий код:

raw-HTML <- paste(readLines("sample-site.txt"), collapse="\n")

Теперь я удаляю все, используя эту фразу

text <- unlist(strsplit(rawHTML, "\\."))

Последний шаг, который я хотел бы сделать, - извлечь всессылки, которые являются веб-сайтом (поэтому конечная цель должна быть в виде списка: https://www.google.com и т. д.). Я пытаюсь выполнить следующую строку:

text[grep(pattern = "href=", text, ignore.case = T)]

Это, однако, не дает мне того, что я ищу. Любые отзывы о том, что я делаю неправильно и что я должен сделать, чтобы получить желаемый результат?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...