Проблема:
Я хочу создать фрейм данных со строками, совпадающими со столбцом длинной строки.Во фрейме данных «d» столбец жанра представляет собой строковый столбец с разными жанрами.Проблема возникает из-за того, что в каждой строке не совпадает количество совпадающих элементов.
library(tidyverse)
d <- structure(list(genres = c("[{'id': 35, 'name': 'Comedy'}]", "[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'name': 'Drama'}, {'id': 10751, 'name': 'Family'}, {'id': 10749, 'name': 'Romance'}]",
"[{'id': 16, 'name': 'Animation'}, {'id': 12, 'name': 'Adventure'}, {'id': 10751, 'name': 'Family'}]"
), budget = c(1.4e+07, 4e+07, 8e+06)), row.names = c(NA, -3L), class = c("tbl_df",
"tbl", "data.frame"))
d
#> # A tibble: 3 x 2
#> genres budget
#> <chr> <dbl>
#> 1 [{'id': 35, 'name': 'Comedy'}] 1.40e7
#> 2 [{'id': 35, 'name': 'Comedy'}, {'id': 18, 'name': 'Drama'}, {'id… 4.00e7
#> 3 [{'id': 16, 'name': 'Animation'}, {'id': 12, 'name': 'Adventure'… 8.00e6
Мой не элегантный способ
Я нашел рабочий процесс, который можно обойти с этим, который немного не изящен.Сначала извлеките все совпадения с помощью str_extract_all
с помощью simplify = T
, который возвращает фрейм данных.Затем создайте векторную строку с именами столбцов, присвойте извлеченный фрейм данных и, наконец, используйте bind_cols
:
foo <- str_extract_all(d$genres, '(?<=\'name\':\\s\')([^\']*)', simplify = T)
colnames(foo) <- paste0("genre_", 1:ncol(foo), "_extract")
foo <- foo %>% as_tibble()
foo_final <- bind_cols(d, foo)
foo_final
#> # A tibble: 3 x 6
#> genres budget genre_1_extract genre_2_extract genre_3_extract
#> <chr> <dbl> <chr> <chr> <chr>
#> 1 [{'id… 1.40e7 Comedy "" ""
#> 2 [{'id… 4.00e7 Comedy Drama Family
#> 3 [{'id… 8.00e6 Animation Adventure Family
#> # … with 1 more variable: genre_4_extract <chr>
Создано в 2019-03-10 пакетом Представить (v0.2.1)
Я хотел бы знать, есть ли способ сделать это в обратном направлении с помощью операторов pipe, mutate или map_df ... Я уверен, что естьлучший способ сделать это.