Question

Из-за глобальных ИТ-настроек мне трудно использовать htmlParse или read_HTML. Решение для моей цели состояло в том, чтобы просто использовать readLines из пакета base и затем проанализировать его с помощью htmlParse. Есть ли у этого процесса недостаток, о котором я не знаю?

По крайней мере для моего MWE, похоже, выдает тот же результат. Может быть, это будет иначе для более сложного HTML-кода.

library(XML)

mailing_url = "http://www.r-project.org/mail.html"

mailing lines <- readLines(mailing_url)

mailing_doc.RL = htmlParse(mailing_lines)
mailing_doc.HTML = htmlParse(mailing_url)

all.equal(mailing_doc.RL, mailing_doc.HTML)

Есть ли недостаток в использовании readlines для разбора HTML / XML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Есть ли недостаток в использовании readlines для разбора HTML / XML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы