Я не эксперт в R. У меня 180 документов, преобразованных из pdf файлов в R. Я получил скрипт regex, который помогает удалить «абстрактную» часть из этих статей, но я не могу удалить конечную часть is »ссылки "этих статей.Я хотел бы попросить некоторую помощь.Это статьи со стандартной частью «Ссылки».
Я не могу показать какие-либо попытки, потому что все пошло на ошибку, я не сохранил их.
Мои коды работают для удаления тезисов:
# Move abstract text to an object called "pdf_abstracts" and remove from pdf_documents
pdf_abstracts <- character()
for (i in 1:length(pdf_documents)) {
pdf_abstracts[i] <- str_extract(pdf_documents[i], pattern = regex("^.+(?=1. +Introduction)", dotall = TRUE))
pdf_documents[i] <- str_remove(pdf_documents[i], pattern = regex("^.+(?=1. +Introduction)", dotall = TRUE))
}
, и я хотел бы использовать этот же способ, потому что мне нужны ссылки также как реферат.Я знаю, что должен как-то использовать «$» в этом сценарии.
Мои результаты в порядке:
pdf_abstracts (Large character 180 elements 724,2 Kb
pdf_documents (Large character 180 elements 13,6 Mb
Результаты ошибок:
pdf_references 1:180 (empty) or NA
Спасибомного в продвинутом