Я импортирую pdf в R, чтобы провести анализ текста.У меня есть несколько PDF-файлов, имена которых соответствуют их году публикации (одна публикация в год).
Я хотел бы создать TermDocumentMatrix после импорта их, для которого первый термин «документы» (т. Е. Первый столбец тдм) принимает год публикации, а не номер документа.Действительно, в тот момент, когда TDD присваивает им номера (1, 2, 3 и т. Д.), Когда я его создаю
Есть идеи как это сделать?Мой код ниже.
Спасибо!
#creates the list of pdf files to be picked up (from the working directory)
files <- list.files(pattern = "pdf$")
#read the pdf files from the list (number of pages in brackets in front)
new_files <- sapply(files, pdf_text)
#create corpus
new_corp <- Corpus(VectorSource(new_files))
IMF_tdm <- TermDocumentMatrix(new_corp, control = list(removePunctuation = TRUE,
stopwords = TRUE,
tolower = TRUE,
stemming = TRUE,
removeNumbers = TRUE,
bounds = list(global =c(2, Inf))))