У меня есть список из> 90 PDF-файлов, которые я прочитал и почистил в R, я извлек два поля для каждого из этих файлов: Число и Дата. Мой текущий фрейм данных включает в себя один столбец, в котором есть строка для числа, а следующая строка - это дата, соответствующая этому числу. Я пытаюсь преобразовать строку с датой, которая соответствует числу в столбце. У меня так много проблем, чтобы понять это, и я буду признателен за любую помощь. Я удалил вручную часть строк, которые являются частью каждой строки в разделе «Пример текущего фрейма данных». Пожалуйста, посмотрите вывод dput, чтобы увидеть, как выглядит реальный фрейм данных.
Это код, который создает мой текущий фрейм данных
PDFreader <- function(x){
t <- pdf_text (x)
page_1 <- t
}
op2 <- lapply(pt, PDFreader)
op2.1 <- sapply(op2 ,strsplit, split = "\n")
op3 <- rapply(op2.1, grep, pattern = "Number:|Date:",
value = TRUE) %>%
unique()
df_all <- as.data.frame(op3)%>%
unique()
df_all$op3 <- as.character(as.factor(df_all$op3))
dput(head(df_all))
structure(list(op3 = c("Number: 11", "Date: 01/03/2018 Last Revised Review: AM #17",
"Date: 01/03/2018 Last Revised Review: AM #17",
"Date: 01/03/2018 Last Revised Review: AM #17",
"Date: 01/03/2018 Last Revised Review: AM #17",
" Date: 09/10/2018 Last Revised Review: AM# 39"
)), .Names = "op3", row.names = c(NA, 6L), class = "data.frame")
Пример моего текущего фрейма данных:
op3 --> COLUMN NAME
Number: 11
Date: 01/03/2018 .. some text
Date: 01/03/2018.. some text
Date: 01/03/2018 .. some text
Date: 01/03/2018 .. some text
Date: 09/10/2018 .. some text
Number: 12
Date: 12/06/2016 .. some text
Date: 12/06/2016 .. some text
Date: 12/06/2016 .. some text
Number: 13
Date: 10/29/2018 .. some text
Date: 10/29/2018 .. some text
Date: 10/29/2018 .. some text
Date: 10/29/2018.. some text
Фрейм данных Desire
op3 op4
Number:11 Date:01/03/2018
Number:12 Date:12/06/2016
Number:13 Date:10/29/2018