Question

Используя

library(htm2txt)
url <- 'https://en.wikipedia.org/wiki/Alan_Turing'
clear.text <- gettxt(url)

код я получаю

clear.text
[1] "Alan Turing\n\nFrom Wikipedia, the free encyclopedia\n\nJump to navigation\tJump to search\n\n\"Turing\" redirects here. For other uses, see Turing (disambiguation).\n\nmathematician and computer scientist\n\nAlan Turing\n\nOBE FRS\n\nTuring aged 16\n\nBorn (1912-06-23)23 June 1912\n\nM...

и эти данные я хотел бы сохранить в аккуратный объект, как в:

tidy.text <- tidy(clear.text)

но я получаю

'tidy.character' is deprecated.

и в результате получаем

# A tibble: 1 x 1
                                                                                 x
                                                                             <chr>
1 "Alan Turing\n\nFrom Wikipedia, the free encyclopedia\n\nJump to navigation\tJum
>

Как я могу поэтому преобразовать такой простой текст в аккуратный формат?

Спасибо за любой аванс.

Julia Silge · Answer 1 · 19 декабря 2018

Если у вас есть ссылка на Википедию или другой HTML-код, функция unnest_tokens() в tidytext может анализировать и приводить ее в порядок.

library(tidytext)
library(tidyverse)

read_lines("https://en.wikipedia.org/wiki/Alan_Turing") %>%
  data_frame(text = .) %>%
  unnest_tokens(word, text, format = "html")

#> # A tibble: 15,460 x 1
#>    word     
#>    <chr>    
#>  1 alan     
#>  2 turing   
#>  3 wikipedia
#>  4 this     
#>  5 is       
#>  6 a        
#>  7 good     
#>  8 article  
#>  9 follow   
#> 10 the      
#> # ... with 15,450 more rows

^{Создано в 2018-12-18 с помощью представьте пакет (v0.2.1)}

Как я могу преобразовать символьный объект (проанализированная веб-страница) в аккуратный объект в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу преобразовать символьный объект (проанализированная веб-страница) в аккуратный объект в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы