Из-за глобальных ИТ-настроек мне трудно использовать htmlParse
или read_HTML
.
Решение для моей цели состояло в том, чтобы просто использовать readLines
из пакета base
и затем проанализировать его с помощью htmlParse
. Есть ли у этого процесса недостаток, о котором я не знаю?
По крайней мере для моего MWE, похоже, выдает тот же результат. Может быть, это будет иначе для более сложного HTML-кода.
library(XML)
mailing_url = "http://www.r-project.org/mail.html"
mailing lines <- readLines(mailing_url)
mailing_doc.RL = htmlParse(mailing_lines)
mailing_doc.HTML = htmlParse(mailing_url)
all.equal(mailing_doc.RL, mailing_doc.HTML)