Я хочу собрать какой-то конкретный текст из более чем 200 файлов PDF, поэтому мне нужно что-то вроде «автоматического», чтобы помочь мне.
Все PDF-файлы имеют почти одинаковую структуру (но мне этого недостаточночто я хочу).Текст, который мне нужен, идет после «Палаврас» в каждом PDF-файле, но не каждый PDF-файл содержит только то, что я хочу после этого.
Код, который я использую сейчас (с помощью pdftools), собирает содержимое между »Palavras "и" ABSTRACT ":
lapply(x, function(x){
list_output <- pdftools::pdf_text(x)
text_output <- gsub('(\\s)+', ' ', paste(unlist(list_output), collapse=" "))
trimws(regmatches(text_output, gregexpr("(?<=Palavras).*?(?=ABSTRACT)", text_output, perl=TRUE))[[1]][1])
})
Но, как я уже сказал, не каждый PDF-файл имеет одинаковую структуру, поэтому он не работает для большинства файлов.
Я думаю, чтоединственное, что мне подходит, - это получить некоторые символы после «Палавраса», например, код, который извлекает все, что идет после «Палавраса», до 200 или 300 символов.Проблема в том, что я понятия не имею, как это сделать.
Есть предложения?Любая помощь будет оценена.