Читайте несколько файлов PDF одновременно и извлекайте предложения, содержащие ключевое слово, используя R - PullRequest
0 голосов
/ 08 мая 2019

Давайте предположим, что у меня есть несколько файлов PDF, хранящихся в каталоге, и я хочу прочитать все эти файлы PDF в одном и извлечь все предложения, содержащие определенное ключевое слово (в данном случае «положения») вместо того, чтобы вручную открывать каждый файли ищу это ключевое слово.

Я пробовал читать файлы, но как я могу заставить R пройтись по каждому файлу pdf, чтобы найти это ключевое слово и вывести эти предложения?Вот небольшой фрагмент, который я написал:

library(pdftools)
files <- list.files("filepath",pattern = "pdf$", full.names = TRUE)
comb <- lapply(files, pdf_text)

Для справки по файлам ссылки на файлы PDF:

<https://www.supremecourt.gov/opinions/14pdf/13-1314_3ea4.pdf> 
<https://www.supremecourt.gov/opinions/14pdf/14-7955_aplc.pdf>
<https://www.supremecourt.gov/opinions/14pdf/14-46_bqmc.pdf>

Я создал каталог и сохранил файлы PDF вЭто.

1 Ответ

0 голосов
/ 13 мая 2019

Обновление на вопрос: Я нашел решение, которое может быть достигнуто с помощью приведенного ниже кода:

install.packages("textreadr")
install.packages("tidyverse")
install.packages("pdfsearch")
library(textreadr)
library(tidyverse)
library(pdfsearch)

dirct <- directory_path
result <- keyword_directory(dirct, 
                            keyword = 'input_the_keyword_you_want_to_extract',
                            surround_lines = 0, full_names = TRUE)
head(result$line_text, n = 20)
...