Question

Я извлек данные из PDF-файла, используя keyword_search, который в итоге суммировал результаты в виде таблицы.Это здорово, но теперь я хочу дополнительно обобщить данные, которые были сохранены в списке «token_text» тиббла, меня особенно интересует только последний элемент списка в каждой строке.Тем не менее, функции, которые я знаю, как извлечь элементы в списке, похоже, не работают в таблице?

Например, если у меня есть элемент списка "а", то я могу получить доступ к последнему элементу в этом спискес:

sapply(a,tail,1)

, однако, это не похоже на работу в таблице:

result$token_text, tail,1)

Поскольку это дает мне только весь список, а не последний элемент списка.Чего мне не хватает?

Ниже приведена информация о моем тибле "результат".

Спасибо за вашу помощь заранее.

structure(list(keyword = c("124-38-9", "124-38-9", "124-38-9", 
"124-38-9", "124-38-9", "124-38-9", "124-38-9", "124-38-9", "124-38-9", 
"124-38-9", "124-38-9", "124-38-9", "124-38-9", "124-38-9", "74-82-8", 
"74-82-8", "74-82-8", "74-82-8", "74-82-8", "74-82-8", "74-82-8", 
"74-82-8", "74-82-8", "74-82-8", "10024-97-2", "10024-97-2", 
"10024-97-2", "10024-97-2", "10024-97-2", "10024-97-2", "10024-97-2", 
"10024-97-2", "10024-97-2", "10024-97-2"), page_num = c(20L, 
21L, 21L, 21L, 21L, 21L, 22L, 22L, 22L, 23L, 23L, 24L, 24L, 24L, 
21L, 21L, 22L, 22L, 23L, 23L, 23L, 24L, 24L, 24L, 21L, 21L, 22L, 
22L, 23L, 23L, 23L, 24L, 24L, 24L), line_num = c(500L, 503L, 
504L, 516L, 517L, 518L, 527L, 533L, 542L, 550L, 559L, 567L, 573L, 
579L, 505L, 519L, 528L, 534L, 545L, 551L, 560L, 568L, 574L, 580L, 
506L, 520L, 529L, 535L, 546L, 552L, 561L, 569L, 575L, 581L), 
    line_text = list("124-38-9                         CO2 nonbio             8812.3593                8812.3593", 
        "124-38-9                         CO2 bio-nC   0                     0", 
        "124-38-9                         CO2 bio-C    0                     0", 
        "124-38-9                         CO2 nonbio   0                     0", 
        "124-38-9                         CO2 bio-nC   0                     0", 
        "124-38-9                         CO2 bio-C    0                     0", 
        "124-38-9                         CO2  8411.7989              8411.7989", 
        "124-38-9                         CO2  0                      0", 
        "124-38-9                         CO2  392.9536               392.9536", 
        "124-38-9                         CO2  4.0087                 4.0087", 
        "124-38-9                         CO2  3.5981                 3.5981", 
        "124-38-9                         CO2 0                      0", 
        "124-38-9                         CO2 0                      0", 
        "124-38-9                         CO2 0                      0", 
        "74-82-8                          CH4          83.0642               2076.6050", 
        "74-82-8                          CH4          0                     0", 
        "74-82-8                          CH4  7.8340                 195.8500", 
        "74-82-8                          CH4  0                      0", 
        "74-82-8                          CH4  2.0398                 50.9950", 
        "74-82-8                          CH4  30.4243                760.6075", 
        "74-82-8                          CH4  42.7661                1069.1525", 
        "74-82-8                          CH4 0                      0", 
        "74-82-8                          CH4 0                      0", 
        "74-82-8                          CH4 0                      0", 
        "10024-97-2                       N2O          0.2146                63.9508", 
        "10024-97-2                       N2O          0                     0", 
        "10024-97-2                       N2O  0.2139                 63.7422", 
        "10024-97-2                       N2O  0                      0", 
        "10024-97-2                       N2O  0.0007                 0.2086", 
        "10024-97-2                       N2O  0                      0", 
        "10024-97-2                       N2O  0                      0", 
        "10024-97-2                       N2O 0                      0", 
        "10024-97-2                       N2O 0                      0", 
        "10024-97-2                       N2O 0                      0"), 
    token_text = list(list(c("124", "38", "9", "co2", "nonbio", 
    "8812.3593", "8812.3593")), list(c("124", "38", "9", "co2", 
    "bio", "nc", "0", "0")), list(c("124", "38", "9", "co2", 
    "bio", "c", "0", "0")), list(c("124", "38", "9", "co2", "nonbio", 
    "0", "0")), list(c("124", "38", "9", "co2", "bio", "nc", 
    "0", "0")), list(c("124", "38", "9", "co2", "bio", "c", "0", 
    "0")), list(c("124", "38", "9", "co2", "8411.7989", "8411.7989"
    )), list(c("124", "38", "9", "co2", "0", "0")), list(c("124", 
    "38", "9", "co2", "392.9536", "392.9536")), list(c("124", 
    "38", "9", "co2", "4.0087", "4.0087")), list(c("124", "38", 
    "9", "co2", "3.5981", "3.5981")), list(c("124", "38", "9", 
    "co2", "0", "0")), list(c("124", "38", "9", "co2", "0", "0"
    )), list(c("124", "38", "9", "co2", "0", "0")), list(c("74", 
    "82", "8", "ch4", "83.0642", "2076.6050")), list(c("74", 
    "82", "8", "ch4", "0", "0")), list(c("74", "82", "8", "ch4", 
    "7.8340", "195.8500")), list(c("74", "82", "8", "ch4", "0", 
    "0")), list(c("74", "82", "8", "ch4", "2.0398", "50.9950"
    )), list(c("74", "82", "8", "ch4", "30.4243", "760.6075")), 
        list(c("74", "82", "8", "ch4", "42.7661", "1069.1525"
        )), list(c("74", "82", "8", "ch4", "0", "0")), list(c("74", 
        "82", "8", "ch4", "0", "0")), list(c("74", "82", "8", 
        "ch4", "0", "0")), list(c("10024", "97", "2", "n2o", 
        "0.2146", "63.9508")), list(c("10024", "97", "2", "n2o", 
        "0", "0")), list(c("10024", "97", "2", "n2o", "0.2139", 
        "63.7422")), list(c("10024", "97", "2", "n2o", "0", "0"
        )), list(c("10024", "97", "2", "n2o", "0.0007", "0.2086"
        )), list(c("10024", "97", "2", "n2o", "0", "0")), list(
            c("10024", "97", "2", "n2o", "0", "0")), list(c("10024", 
        "97", "2", "n2o", "0", "0")), list(c("10024", "97", "2", 
        "n2o", "0", "0")), list(c("10024", "97", "2", "n2o", 
        "0", "0")))), row.names = c(NA, -34L), class = c("tbl_df", 
"tbl", "data.frame"))

Moody_Mudskipper · Answer 1 · 14 декабря 2018

С tidyverse Я бы сделал это следующим образом:

result %>% 
  mutate_at(vars(token_text), ~map_chr(.,~last(.[[1]])))
# A tibble: 34 x 5
#     keyword page_num line_num line_text token_text
#       <chr>    <int>    <int>    <list>      <chr>
#  1 124-38-9       20      500 <chr [1]>  8812.3593
#  2 124-38-9       21      503 <chr [1]>          0
#  3 124-38-9       21      504 <chr [1]>          0
#  4 124-38-9       21      516 <chr [1]>          0
#  5 124-38-9       21      517 <chr [1]>          0
#  6 124-38-9       21      518 <chr [1]>          0
#  7 124-38-9       22      527 <chr [1]>  8411.7989
#  8 124-38-9       22      533 <chr [1]>          0
#  9 124-38-9       22      542 <chr [1]>   392.9536
# 10 124-38-9       23      550 <chr [1]>     4.0087
# ... with 24 more rows

и добавил бы %>% pull(token_text), если вы просто хотите содержимое столбца token.

Andrew Gustar · Answer 2 · 14 декабря 2018

Вы можете сделать это следующим образом ...

result$last_token <- sapply(result$token_text, function(x) tail(x[[1]], 1))

Вам нужно sapply по списку списков и делать их по одному за раз.Это предполагает, что каждый элемент last_token является списком длины 1, содержащим вектор.

sindri_baldur · Answer 3 · 14 декабря 2018

with(result, sapply(token_text, function(x) tail(x[[1]], 1)))

[1] "8812.3593" "0"         "0"         "0"         "0"         "0"        
 [7] "8411.7989" "0"         "392.9536"  "4.0087"    "3.5981"    "0"        
[13] "0"         "0"         "2076.6050" "0"         "195.8500"  "0"        
[19] "50.9950"   "760.6075"  "1069.1525" "0"         "0"         "0"        
[25] "63.9508"   "0"         "63.7422"   "0"         "0.2086"    "0"        
[31] "0"         "0"         "0"         "0"

или больше tidyverse ish:

library(dplyr)
result %>% 
  pull(token_text) %>% 
  sapply(function(x) last(unlist(x)))

www · Answer 4 · 14 декабря 2018

token_text - это столбец списка, поэтому вам нужно получить доступ к элементу списка с помощью [[ далее.Вот решение с использованием map_chr из purrr.

library(purrr)

map_chr(result$token_text, ~tail(.[[1]], 1)) 
# [1] "8812.3593" "0"         "0"         "0"         "0"         "0"        
# [7] "8411.7989" "0"         "392.9536"  "4.0087"    "3.5981"    "0"        
# [13] "0"         "0"         "2076.6050" "0"         "195.8500"  "0"        
# [19] "50.9950"   "760.6075"  "1069.1525" "0"         "0"         "0"        
# [25] "63.9508"   "0"         "63.7422"   "0"         "0.2086"    "0"        
# [31] "0"         "0"         "0"         "0"

Доступ к последнему элементу в списке в таблице

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Доступ к последнему элементу в списке в таблице

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы