Я работаю над кодом, способным автоматически извлекать ключевые слова из рефератов Pubmed. С пакетами pubmed.mine.r
можно читать и разбивать абстрактные слова. Но я действительно не хочу принимать во внимание имена автора и информацию. Есть идеи, как обращаться с .txt файлами и удалять из них лишние слова и информацию?
Вот мой код
мои входные файлы
"abstract.txt" и "summary.csv", загруженные в Pubmed
Вы можете попробовать с любым исследованием опубликованных на элементе "отправить" и загрузить файлы: текст (реферат) и CSV.
key_word_finder <- function (abstract, summary){
library(pubmed.mineR)
library(tools)
library(stringr)
abstractR <- readabs(abstract)
atomized_text <- word_atomizations(abstractR)
file_without_ext <- file_path_sans_ext(abstract)
atomized_file_name <- paste0(file_without_ext, '_atomized.csv')
write.csv(atomized_text, atomized_file_name)
abstract_atom<- read.csv('abstract_atomized.csv')
id<- which(abstract_atom[,3]>3)
atom<-abstract_atom[id,]
current_word <- ''
key_words <- c()
key_words<- atom[,2]