У меня есть необработанный HTML-файл, который я извлекаю с веб-сайта (CONTR + SHIFT + I в Chrome). Теперь я загружаю этот файл в R, используя следующий код:
raw-HTML <- paste(readLines("sample-site.txt"), collapse="\n")
Теперь я удаляю все, используя эту фразу
text <- unlist(strsplit(rawHTML, "\\."))
Последний шаг, который я хотел бы сделать, - извлечь всессылки, которые являются веб-сайтом (поэтому конечная цель должна быть в виде списка: https://www.google.com и т. д.). Я пытаюсь выполнить следующую строку:
text[grep(pattern = "href=", text, ignore.case = T)]
Это, однако, не дает мне того, что я ищу. Любые отзывы о том, что я делаю неправильно и что я должен сделать, чтобы получить желаемый результат?