Как исключить теги из списков с помощью rvest - PullRequest
0 голосов
/ 30 октября 2019

У меня есть следующая выдержка html:

<div class="price">
  <span class="float-right"><strong>1900</strong> USD</span>
</div>

Я хотел бы получить сумму и валюту в виде двух отдельных переменных.

Для суммы я могу получить ее без проблем. со следующим фрагментом кода:

price <- rentalagency_html %>%
  rvest::html_nodes(css="div.price > span.float-right > strong") %>%
  rvest::html_text(trim=TRUE)
price

Для валюты, как я могу получить только "USD" без суммы? По сути, я хочу исключить тег.

1 Ответ

0 голосов
/ 30 октября 2019

Если вы прочитали весь узел 'span', вы могли бы разделить полученный текст на два пробела?

x <- '<div class="price">
  <span class="float-right"><strong>1900</strong> USD</span>
</div>'

x %>% 
  read_html() %>% 
  html_nodes(css='div.price > span') %>% 
  html_text(trim=TRUE) %>% 
  strsplit(' ')
[[1]]
[1] "1900" "USD" 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...