Объединение двух вложенных списков R - PullRequest
0 голосов
/ 07 июня 2018

У меня есть переменная, которая иерархически закодирована в кадре данных.Вот так:

df$variable
[1] "62010" "79110" "69202" "96040" "90010" "59200" ... 

Теперь я хотел бы изменить это в список.Вот так:

 $ :List of 2
 ..$ : chr "62"
 ..$ :List of 2
 .. ..$ : chr "620"
 .. ..$ : List of 2
 .. .. ..$ : chr "6201"
 .. .. ..$ : List of 1
 .. .. .. ..$ : chr "62010"

Мне удалось создать два двухуровневых вложенных списка:

l1 <- lapply(unique(df$variable)), list)
l2 <- unique(lapply(l1, function(x) substr(x, 1,2)))
l3 <- unique(lapply(l1, function(x) substr(x, 1,3)))
l4 <- unique(lapply(l1, function(x) substr(x, 1,4)))
l5 <- unique(lapply(l1, function(x) substr(x, 1,5)))

l23 <- mapply(list, l2, lapply(l2, function(x) l3[substr(l3,1,2) == x]), SIMPLIFY = FALSE)
l45 <- mapply(list, l4, lapply(l4, function(x) l5[substr(l5,1,4) == x]), SIMPLIFY = FALSE)

Это привело к следующему:

 str(l23)
 $ :List of 2
 ..$ : chr "62"
 ..$ :List of 1
 .. ..$ : chr "620"

и

str(l45)
$ :List of 2
..$ : chr "6201"
..$ :List of 1
.. ..$ : chr "62010"

Понимаете, как объединить эти два списка?Или, может быть, как по-другому?

РЕДАКТИРОВАТЬ Добавлен dput:

dput(l1)
list(list("62010"), list("79110"), list("69202"), list("96040"), 
list("90010"), list("59200"), list("43320"), list("90020"), 
list("46220"), list("90030"), list("70220"), list("86909"), 
list("58110"), list("82990"), list("45110"), list("45201"), 
list("68203"), list("46720"), list("46510"), list("95290"), 
list("85510"), list("68204"), list("41200"), list("74900"), 
list("59120"), list("13921"), list("96090"), list("74102"), 
list("96022"), list("70210"))

dput(l23)
list(list("62", list("620")), list("79", list("791", "799")), 
list("69", list("692", "691")), list("96", list("960")), 
list("90", list("900")), list("59", list("592", "591")), 
list("43", list("433", "432", "439", "431")), list("46", 
    list("462", "467", "465", "463", "464", "461", "466")), 
list("70", list("702")), list("86", list("869", "862")), 
list("58", list("581", "582")), list("82", list("829", "821", 
    "822", "823")), list("45", list("451", "452", "453")), 
list("68", list("682", "683")), list("95", list("952")), 
list("85", list("855", "856", "851", "854", "853")), list(
    "41", list("412", "411")), list("74", list("749", "741", 
    "742", "743")), list("13", list("139")), list("47", list(
    "479", "475", "472", "476", "477", "471", "474")), list(
    "88", list("889", "881")), list("73", list("731")), list(
    "71", list("711", "712")), list("66", list("661")), list(
    "49", list("494", "493")), list("32", list("329", "324", 
    "325")), list("63", list("631")), list("10", list("107", 
    "108")), list("93", list("931", "932")), list("81", list(
    "812", "813")))

dput(l45)
list(list("6201", list("62010")), list("7911", list("79110")), 
list("6920", list("69202", "69201")), list("9604", list("96040")), 
list("9001", list("90010")), list("5920", list("59200")), 
list("4332", list("43320")), list("9002", list("90020")), 
list("4622", list("46220")), list("9003", list("90030")), 
list("7022", list("70220")), list("8690", list("86909", "86905", 
    "86901")), list("5811", list("58110")), list("8299", 
    list("82990")), list("4511", list("45110")), list("4520", 
    list("45201", "45203")), list("6820", list("68203", "68204", 
    "68201", "68202", "68209")), list("4672", list("46720")), 
list("4651", list("46510")), list("9529", list("95290")), 
list("8551", list("85510")), list("4120", list("41200")), 
list("7490", list("74900")), list("5912", list("59120")), 
list("1392", list("13921")), list("9609", list("96090")), 
list("7410", list("74102", "74101", "74103")), list("9602", 
    list("96022", "96021")), list("7021", list("70210")), 
list("4791", list("47919", "47912", "47911", "47916", "47914")))

Это мой первый вопрос, поэтому, пожалуйста, извините, если я не смог ничего прояснить.

РЕДАКТИРОВАТЬ Таким образом, чтобы уточнить, что числовые корни не являются уникальными, несколько узлов будут совместно использовать родительский элемент.Возьмите, например, «90010» и «90020». Они должны быть организованы в родительском списке «90», а также в дочернем списке «900», но затем разбиты на «9001» и «9002».Я добавил больший dput в качестве примера.К сожалению, предыдущий и более короткий dput не указывал на то, что это может произойти.Мои извинения.

Ответы [ 2 ]

0 голосов
/ 08 июня 2018

Я уверен, что есть несколько способов решить вашу проблему.На самом деле, кажется, что он тесно связан с суффиксным массивом , но в вашем случае это кажется префиксным массивом и не включает ни пустого ('$'), ни синглтона (вваш случай, первый символ).

Вот мое предложение по решению, использующее только base R:

pref_list <- function(str) {
    pl <- function(str, l, n) {
        if (n == 2)
            return(list(substr(str, 1, n), l))
        pl(str, list(substr(str, 1, n), l), n - 1)
    }
    pl(str, list(str), nchar(str) - 1)
}

Применение к столбцу в ваших данных:

res <- lapply(df$variable, pref_list)
str(res[[1]])
#>List of 2
#> $ : chr "62"
#> $ :List of 2
#>  ..$ : chr "620"
#>  ..$ :List of 2
#>  .. ..$ : chr "6201"
#>  .. ..$ :List of 1
#>  .. .. ..$ : chr "62010"

Редактировать : Я только что прочитал в комментариях, что вы действительно хотите использовать l1 в качестве ввода.Я бы посоветовал использовать df$variable напрямую, но вот способ использовать l1, если вы хотите:

res <- lapply(unlist(l1), pref_list)
0 голосов
/ 07 июня 2018

Вот один способ, который, я думаю, дает то, что вы хотите.Не зная, какой длины может быть каждая строка, я сделал ее рекурсивной.В основном to_sublist принимает string_list, то есть один из элементов l1, который выглядит как list("62010), и начинает строить иерархию снизу.Если строка длиннее 2, она удаляет символ и поднимает его на один уровень вверх, а затем вызывает себя, чтобы продолжить процесс.Затем мы можем lapply сделать это l1 и получить желаемый результат.

l1 <- list(list("62010"), list("79110"), list("69202"), list("96040"), list("90010"), list("59200"))

to_sublist <- function(string_list){
  string <- string_list[[1]]

  if (nchar(string) == 2){
    return(string_list)
  } else {
    substring <- substr(string, 1, nchar(string) - 1)
    sublist <- list(substring, string_list)
    return(to_sublist(sublist))
  }
}

l_out <- lapply(l1, to_sublist)
str(l_out[1:2])
#> List of 2
#>  $ :List of 2
#>   ..$ : chr "62"
#>   ..$ :List of 2
#>   .. ..$ : chr "620"
#>   .. ..$ :List of 2
#>   .. .. ..$ : chr "6201"
#>   .. .. ..$ :List of 1
#>   .. .. .. ..$ : chr "62010"
#>  $ :List of 2
#>   ..$ : chr "79"
#>   ..$ :List of 2
#>   .. ..$ : chr "791"
#>   .. ..$ :List of 2
#>   .. .. ..$ : chr "7911"
#>   .. .. ..$ :List of 1
#>   .. .. .. ..$ : chr "79110"

Создано в 2018-06-07 пакетом Представить (v0.2.0).

------- РАЗВЕДКА --------

eg1 <- list(
  list("12345"),
  list("12340"),
  list("12300"),
  list("12000"),
  list("10000")
  )
eg2 <- list(
  list("1234", list("12345", "12340")),
  list("1230", list("12300")),
  list("1200", list("12000")),
  list("1000", list("10000"))
  )
eg3a <- list(
  list("123", list("1234", list("12345", "12340"), "1230", list("12300"))),
  list("120", list("1200", list("12000"))),
  list("100", list("1000", list("10000")))
  )
eg3b <- list(
  list("123", list("1234", "1230", list("12345", "12340", "12300"))),
  list("120", list("1200", list("12000"))),
  list("100", list("1000", list("10000")))
)
str(eg1)
#> List of 5
#>  $ :List of 1
#>   ..$ : chr "12345"
#>  $ :List of 1
#>   ..$ : chr "12340"
#>  $ :List of 1
#>   ..$ : chr "12300"
#>  $ :List of 1
#>   ..$ : chr "12000"
#>  $ :List of 1
#>   ..$ : chr "10000"
str(eg2)
#> List of 4
#>  $ :List of 2
#>   ..$ : chr "1234"
#>   ..$ :List of 2
#>   .. ..$ : chr "12345"
#>   .. ..$ : chr "12340"
#>  $ :List of 2
#>   ..$ : chr "1230"
#>   ..$ :List of 1
#>   .. ..$ : chr "12300"
#>  $ :List of 2
#>   ..$ : chr "1200"
#>   ..$ :List of 1
#>   .. ..$ : chr "12000"
#>  $ :List of 2
#>   ..$ : chr "1000"
#>   ..$ :List of 1
#>   .. ..$ : chr "10000"
str(eg3a)
#> List of 3
#>  $ :List of 2
#>   ..$ : chr "123"
#>   ..$ :List of 4
#>   .. ..$ : chr "1234"
#>   .. ..$ :List of 2
#>   .. .. ..$ : chr "12345"
#>   .. .. ..$ : chr "12340"
#>   .. ..$ : chr "1230"
#>   .. ..$ :List of 1
#>   .. .. ..$ : chr "12300"
#>  $ :List of 2
#>   ..$ : chr "120"
#>   ..$ :List of 2
#>   .. ..$ : chr "1200"
#>   .. ..$ :List of 1
#>   .. .. ..$ : chr "12000"
#>  $ :List of 2
#>   ..$ : chr "100"
#>   ..$ :List of 2
#>   .. ..$ : chr "1000"
#>   .. ..$ :List of 1
#>   .. .. ..$ : chr "10000"
str(eg3b)
#> List of 3
#>  $ :List of 2
#>   ..$ : chr "123"
#>   ..$ :List of 3
#>   .. ..$ : chr "1234"
#>   .. ..$ : chr "1230"
#>   .. ..$ :List of 3
#>   .. .. ..$ : chr "12345"
#>   .. .. ..$ : chr "12340"
#>   .. .. ..$ : chr "12300"
#>  $ :List of 2
#>   ..$ : chr "120"
#>   ..$ :List of 2
#>   .. ..$ : chr "1200"
#>   .. ..$ :List of 1
#>   .. .. ..$ : chr "12000"
#>  $ :List of 2
#>   ..$ : chr "100"
#>   ..$ :List of 2
#>   .. ..$ : chr "1000"
#>   .. ..$ :List of 1
#>   .. .. ..$ : chr "10000"

Создано в 2018-06-07 пакетом представить (v0.2.0).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...