У меня есть несколько форм HICF (здравоохранение), и я хочу автоматически извлекать определенные поля.В настоящее время я могу иметь кучу PDF-файлов в каталоге.Код ссылается на них, берет все данные и разделяет каждую строку, где есть \ n.
. Затем он объединяет все наборы данных в один файл.Проблема в том, что данные все еще немного запутаны и имеют разные строки.
Я бы предпочел сказать «вывести текст, который находится между« этим словом »и« тем словом ».добавить код для примерно 9 выходных данных. Я предполагал, что мог бы использовать функцию rm_between, но я не уверен, как включить.
Я хотел бы, чтобы выходные данные находили текст между выбранными словами и экспортировали этоданные в файл CSV.
Как бы вы предложили обновить этот код?
install.packages("pdftools")
install.packages("tesseract")
install.packages("plyr")
install.packages("qpcR")
library(pdftools)
library(tesseract)
library (plyr)
library(qpcR)
text <- ocr("POC File 12.20 (3).pdf")
test2<-strsplit(text,"\n")
df <- ldply (test2, data.frame)
compile<-df
file_list <- list.files()
for (file in file_list){
text <- ocr(file)
test2<-strsplit(text,"\n")
df <- ldply (test2, data.frame)
compile<-qpcR:::cbind.na(compile,df)
}
write.csv(compile,"compiled.csv")