Я пытаюсь использовать пакет R tm для решения проблемы сравнения строк (строка из одного слова, а не из нескольких слов).Я уже использовал расстояние Левенштейна, которое могло дать мне значимый результат в этих терминах, но я не полностью удовлетворен.Сейчас я пытаюсь использовать Cosine Similarity после прочтения статьи, которая показалась мне интересной.
Я изучил документацию и прочитал какую-то статью, но на данный момент, я думаю, я не понял возможностей алгоритма.
Я могу использовать его, когда у меня есть термины в виде слов.
например,
docs <- c ("open letters", "closed letters", "letters)
terms <- "open", "closed", "letters")
Но я не могу попросить систему обработать каждую отдельную букву c ("a", "b", "c", "d")
Это привело бы к сравнению строк с использованием матрицы срочных документов.Но, может быть, уже есть моя ошибка.
Что бы было реализовать в тм сравнении строк из одного слова?
Спасибо за помощь, Ps Я не разместил код, потому что этоболее общий вопрос, но я могу создать пример на всякий случай.
Никола
Вот рабочий код согласно предложению:
doc <- c( "closed door", "Open door", "door", "doo", "oor", "house" )
doc_corpus <- Corpus( VectorSource(doc) )
control_list <- list(removePunctuation = TRUE, tolower = TRUE)
tdm <- DocumentTermMatrix(doc_corpus, control = character_tokenize(doc))
tf <- as.matrix(tdm)