R или Python: замена слов с низким весом в документах на основе синонимов - PullRequest
0 голосов
/ 26 сентября 2018

Я выполняю задание, которое включает в себя замену слов с низким весом (возможно, мы можем использовать веса TFidf для определения слов с низким весом) и замену их синонимами.

У меня есть несколько слов (.docx).Я читаю их как вектор и выполняю свои операции, такие как извлечение тегов POS и моделирование тем.

Существует пакет qdap - мы уже используем его, предоставляет синонимы функции, и слова могут быть извлечены, как показано ниже, для любогословом, мы хотим.

synonyms("gangster")[[1]][[1]]

Теперь у меня есть несколько документов, которые я читаю, как показано ниже.

# Creates a list
ldf <- list()
listdoc <- dir(pattern = "*.doc") 
for (k in 1:length(listdoc)){
  ldf[[k]] <- read_docx(listdoc[k])
}

str(ldf[[1]]) 
#create corpus from vector
docs <- Corpus(VectorSource(ldf))

В этом корпусе я сделал все своиоперации, и я не уверен, как я могу определить термины, имеющие малый вес, и заменить их синонимами функций.

Если вы можете помочь мне в Python, это также будет работать, я пойму и изменю это в R.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...