Rvest вырезает некоторые новостные статьи, но не другие из того же источника - PullRequest
0 голосов
/ 16 марта 2020

Я использую rvest для очистки газетных статей. Проблема в том, что я могу только почистить текст некоторых статей, но не других, даже если они с одного сайта.

Например, следующий код очищает текст, который мне нужен:

test_1 <- read_html("https://www.dn.se/nyheter/sverige/V-i-Varmland-kastar-in-nytt-namn-men-stodet-starks-for-Nooshi-Dadgostar") %>% 
 html_node('.article__body') %>% html_text() %>% str_trim() 

Но следующий код возвращает NA:

test_2 <- read_html("https://www.dn.se/nyheter/sverige/Regeringen-vill-att-skolor-ska-fa-satta-betyg-i-arskurs-4") %>% 
 html_node('.article__body') %>% html_text() %>% str_trim() 

В чем причина этого? Я не могу найти никаких явных отличий в селекторе CSS, поэтому не понимаю, в чем проблема.

Есть ли решение?

Заранее спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...