Question

Я использую rvest для очистки газетных статей. Проблема в том, что я могу только почистить текст некоторых статей, но не других, даже если они с одного сайта.

Например, следующий код очищает текст, который мне нужен:

test_1 <- read_html("https://www.dn.se/nyheter/sverige/V-i-Varmland-kastar-in-nytt-namn-men-stodet-starks-for-Nooshi-Dadgostar") %>% 
 html_node('.article__body') %>% html_text() %>% str_trim()

Но следующий код возвращает NA:

test_2 <- read_html("https://www.dn.se/nyheter/sverige/Regeringen-vill-att-skolor-ska-fa-satta-betyg-i-arskurs-4") %>% 
 html_node('.article__body') %>% html_text() %>% str_trim()

В чем причина этого? Я не могу найти никаких явных отличий в селекторе CSS, поэтому не понимаю, в чем проблема.

Есть ли решение?

Заранее спасибо!

Rvest вырезает некоторые новостные статьи, но не другие из того же источника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Rvest вырезает некоторые новостные статьи, но не другие из того же источника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы