Я пытаюсь извлечь данные путем анализа текста с помощью html_nodes
, используя URL-адреса, которые я сохранил в объекте с именем url
.Я создал цикл, который читает и очищает каждый URL.
library(rvest)
for (i in url) {
tex <- read_html(i)
p_text <- tex %>%
html_nodes("p") %>%
html_text()
a <- p_text
}
Поскольку некоторые URL не работают, появляется следующее сообщение:
Ошибка в open.connection (x, "rb"): не удалось разрешить хост: app.lo
Я хочу ввести в цикл следующее: если URL-адрес не работает, предположим, что текст пуст, и пусть циклПродолжить.Это действительно проблема, потому что цикл останавливается, и я пытался удалить некоторые URL, но у меня есть около 200 000 htmls.