Я выполняю задание, которое включает в себя замену слов с низким весом (возможно, мы можем использовать веса TFidf для определения слов с низким весом) и замену их синонимами.
У меня есть несколько слов (.docx).Я читаю их как вектор и выполняю свои операции, такие как извлечение тегов POS и моделирование тем.
Существует пакет qdap - мы уже используем его, предоставляет синонимы функции, и слова могут быть извлечены, как показано ниже, для любогословом, мы хотим.
synonyms("gangster")[[1]][[1]]
Теперь у меня есть несколько документов, которые я читаю, как показано ниже.
# Creates a list
ldf <- list()
listdoc <- dir(pattern = "*.doc")
for (k in 1:length(listdoc)){
ldf[[k]] <- read_docx(listdoc[k])
}
str(ldf[[1]])
#create corpus from vector
docs <- Corpus(VectorSource(ldf))
В этом корпусе я сделал все своиоперации, и я не уверен, как я могу определить термины, имеющие малый вес, и заменить их синонимами функций.
Если вы можете помочь мне в Python, это также будет работать, я пойму и изменю это в R.