Webscraping текст с использованием R - PullRequest
0 голосов
/ 12 марта 2020

Я пытался создать текст из https://www.ft.com/content/5946a17c-63bb-11ea-a6cd-df28cc3c6a68 с кодом:

get_url <- read_html("https://www.ft.com/content/5946a17c-63bb-11ea-a6cd-df28cc3c6a68")
text_nodes <- html_nodes(get_url,"div p")  
print(text_nodes)

Однако я получил ответ:

{xml_nodeset (3)}
[1] <p>\n\t\t\t\t\t\tGain a global perspective on the US and go beyond with c ...
[2] <p>\n\t\t\t\t<a href="/login?location=/content/5946a17c-63bb-11ea-a6cd-df ...
[3] <p class="o-header__drawer-current-edition">International Edition</p>

Нужно ли присваивать индексы списку? Может кто-нибудь объяснить, что означает вышесказанное и как создать текст со страницы. Большое спасибо!

1 Ответ

1 голос
/ 12 марта 2020

Это отвечает на ваш вопрос?

   get_url <- read_html("https://www.ft.com/content/5946a17c-63bb-11ea-a6cd-df28cc3c6a68")
    text_nodes <- html_nodes(get_url,"div p")%>%      
      html_text()
    text= gsub("[\r\n\t]", "", text_nodes[1])
    print(text)
...