Я использую rvest для очистки газетных статей. Проблема в том, что я могу только почистить текст некоторых статей, но не других, даже если они с одного сайта.
Например, следующий код очищает текст, который мне нужен:
test_1 <- read_html("https://www.dn.se/nyheter/sverige/V-i-Varmland-kastar-in-nytt-namn-men-stodet-starks-for-Nooshi-Dadgostar") %>% html_node('.article__body') %>% html_text() %>% str_trim()
Но следующий код возвращает NA:
test_2 <- read_html("https://www.dn.se/nyheter/sverige/Regeringen-vill-att-skolor-ska-fa-satta-betyg-i-arskurs-4") %>% html_node('.article__body') %>% html_text() %>% str_trim()
В чем причина этого? Я не могу найти никаких явных отличий в селекторе CSS, поэтому не понимаю, в чем проблема.
Есть ли решение?
Заранее спасибо!