Очистка веб-страницы (с R), где все элементы размещены внутри тег - PullRequest
0 голосов
/ 25 апреля 2020

Я пытаюсь решить задачу RPA (www.rpachallenge.com), используя R и Rselenium.

Я всегда использую xpath для выбора элементов / тегов html страницы, но я просто не могу извлечь из этого ничего, даже не используя classi c rvest::html_nodes. Я полагаю, что проблема в том, что html здесь генерируется с помощью javascript, потому что все элементы в теле находятся внутри тегов <app-root>...</app-root> (что, как говорит мне Google, это то, как пишутся Angular приложения).

Изучив наборы узлов, вы можете увидеть различную структуру очищенной страницы с тегом app- root, но в ней ничего нет. Есть идеи, как получить доступ к тегам на этой странице?

# You can try it yourselves by running this chunk
library(rvest)
library(magrittr)

url <- "http://www.rpachallenge.com"
rpa <- url %>% 
  read_html() %>% 
  View
...