Удалить концы статей, которые в pdf-файлах в R - PullRequest
0 голосов
/ 23 сентября 2019

Я не эксперт в R. У меня 180 документов, преобразованных из pdf файлов в R. Я получил скрипт regex, который помогает удалить «абстрактную» часть из этих статей, но я не могу удалить конечную часть is »ссылки "этих статей.Я хотел бы попросить некоторую помощь.Это статьи со стандартной частью «Ссылки».

Я не могу показать какие-либо попытки, потому что все пошло на ошибку, я не сохранил их.

Мои коды работают для удаления тезисов:

# Move abstract text to an object called "pdf_abstracts" and remove from pdf_documents
pdf_abstracts <- character()
for (i in 1:length(pdf_documents)) {
  pdf_abstracts[i] <- str_extract(pdf_documents[i], pattern = regex("^.+(?=1. +Introduction)", dotall = TRUE))
  pdf_documents[i] <- str_remove(pdf_documents[i], pattern = regex("^.+(?=1. +Introduction)", dotall = TRUE))
}

, и я хотел бы использовать этот же способ, потому что мне нужны ссылки также как реферат.Я знаю, что должен как-то использовать «$» в этом сценарии.

Мои результаты в порядке:

pdf_abstracts  (Large character 180 elements 724,2 Kb
pdf_documents  (Large character 180 elements 13,6 Mb

Результаты ошибок:

pdf_references  1:180 (empty) or NA

Спасибомного в продвинутом

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...