Pubmed Mine R: Как убрать имена авторов и информацию из аннотации? - PullRequest
0 голосов
/ 30 апреля 2019

Я работаю над кодом, способным автоматически извлекать ключевые слова из рефератов Pubmed. С пакетами pubmed.mine.r можно читать и разбивать абстрактные слова. Но я действительно не хочу принимать во внимание имена автора и информацию. Есть идеи, как обращаться с .txt файлами и удалять из них лишние слова и информацию?

Вот мой код

мои входные файлы

"abstract.txt" и "summary.csv", загруженные в Pubmed

Вы можете попробовать с любым исследованием опубликованных на элементе "отправить" и загрузить файлы: текст (реферат) и CSV.

key_word_finder <- function (abstract, summary){


    library(pubmed.mineR)
    library(tools)
    library(stringr)
   abstractR <- readabs(abstract)
   atomized_text <- word_atomizations(abstractR)
   file_without_ext <- file_path_sans_ext(abstract)
   atomized_file_name <- paste0(file_without_ext, '_atomized.csv')
   write.csv(atomized_text, atomized_file_name)

   abstract_atom<- read.csv('abstract_atomized.csv')
   id<- which(abstract_atom[,3]>3)
   atom<-abstract_atom[id,]

    current_word <- ''
    key_words <- c()
    key_words<- atom[,2]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...