Извлечение текста из файлов PDF путем определения определенного количества символов в R - PullRequest
0 голосов
/ 31 мая 2019

Я хочу собрать какой-то конкретный текст из более чем 200 файлов PDF, поэтому мне нужно что-то вроде «автоматического», чтобы помочь мне.

Все PDF-файлы имеют почти одинаковую структуру (но мне этого недостаточночто я хочу).Текст, который мне нужен, идет после «Палаврас» в каждом PDF-файле, но не каждый PDF-файл содержит только то, что я хочу после этого.

Код, который я использую сейчас (с помощью pdftools), собирает содержимое между »Palavras "и" ABSTRACT ":

lapply(x, function(x){
   list_output <- pdftools::pdf_text(x)
   text_output <- gsub('(\\s)+', ' ', paste(unlist(list_output), collapse=" "))
   trimws(regmatches(text_output, gregexpr("(?<=Palavras).*?(?=ABSTRACT)", text_output, perl=TRUE))[[1]][1])
})

Но, как я уже сказал, не каждый PDF-файл имеет одинаковую структуру, поэтому он не работает для большинства файлов.

Я думаю, чтоединственное, что мне подходит, - это получить некоторые символы после «Палавраса», например, код, который извлекает все, что идет после «Палавраса», до 200 или 300 символов.Проблема в том, что я понятия не имею, как это сделать.

Есть предложения?Любая помощь будет оценена.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...