Я нашел решение:
Сначала я изменяю значение по умолчанию ReadPDF engine
на xpdf
Rpdf <- readPDF(engine = "xpdf", control = list(text = "-layout"))
# layout control in order to keep the original format as much as possible
docs <- Corpus(DirSource(cname), readerControl=list(reader=Rpdf))
# upload documents i ncname, the path to the files
Во-вторых, я сворачиваю текст, чтобы иметь один документ на вектор:
document <- content(docs[[1]])
document <- unlist(paste(document , collapse = ' '))
В-третьих, я извлекаю страницу с информацией, которую искал, и извлекаю имена с помощью регулярных выражений
corporate.info <- unlist(str_extract_all(document, "\\f+.+CORPORATE+.+INFORMATION+.+\\f"))
### "\f" --> indicates the beggining and end of of a page
### "+.+CORPORATE+.+INFORMATION+.+" --> indicates the page with the heading I was interested
corporate.info <- unlist(str_extract_all(corporate.info, "[A-Z]+[a-z]{1,8}\\s[A-Z]+[a-z]{1,8}\\s[A-Z]+[a-z]{1,8}")) # extract names
corporate.info <- unique(corporate.info) # clean
corporate.info <- str_replace_all(corporate.info, ".*Bank.*", "") # clean + similar stuff to clean