Я бы использовал jsonlite
для анализа данных после удаления тегов pre> из необработанных данных (прерывание процесса синтаксического анализа).Затем вы можете преобразовать полученный список в фрейм данных с tibble
, а затем использовать tidyr
для удаления всего.
raw_data %>% cat
clean_data <- stringr::str_replace_all(raw_data, '<pre>', '')
aapl_data <- jsonlite::fromJSON(clean_data) %>%
tibble::enframe() %>%
dplyr::mutate(value = purrr::map(value, function(x){
tibble::enframe(x)
})) %>%
tidyr::unnest() %>%
dplyr::mutate(value = purrr::map(value, function(x){ tibble::enframe(x)})) %>%
tidyr::unnest() %>%
tidyr::unnest()
вы должны в конечном итогес чем-то вроде этого:
# A tibble: 102 x 4
name name1 name2 value
<chr> <chr> <chr> <chr>
1 AAPL Revenue 2013-09 170910
2 AAPL Revenue 2014-09 182795
3 AAPL Revenue 2015-09 233715
4 AAPL Revenue 2016-09 215639
5 AAPL Revenue 2017-09 229234
6 AAPL Revenue TTM 239176
7 AAPL Cost of revenue 2013-09 106606
8 AAPL Cost of revenue 2014-09 112258
9 AAPL Cost of revenue 2015-09 140089
10 AAPL Cost of revenue 2016-09 131376
# ... with 92 more rows