Есть ли недостаток в использовании readlines для разбора HTML / XML? - PullRequest
0 голосов
/ 02 июля 2018

Из-за глобальных ИТ-настроек мне трудно использовать htmlParse или read_HTML. Решение для моей цели состояло в том, чтобы просто использовать readLines из пакета base и затем проанализировать его с помощью htmlParse. Есть ли у этого процесса недостаток, о котором я не знаю?

По крайней мере для моего MWE, похоже, выдает тот же результат. Может быть, это будет иначе для более сложного HTML-кода.

library(XML)

mailing_url = "http://www.r-project.org/mail.html"

mailing lines <- readLines(mailing_url)

mailing_doc.RL = htmlParse(mailing_lines)
mailing_doc.HTML = htmlParse(mailing_url)

all.equal(mailing_doc.RL, mailing_doc.HTML)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...