У меня есть файл Excel с записями студентов, включающими 14 атрибутов (показано ниже).Я хочу вычислить сходство между каждой парой студентов.
Сначала я должен преобразовать строки в массив символов.Затем я сделал матрицу термина документа и вычислил расстояние между каждой парой.Затем я вычитаю расстояние из 1. Но нахожу неправильное сходство.
F360 <- read_excel("C:/Users/DreamWorld/F360.xlsx")
mydf=data.frame(F360$nursery,F360$higher,F360$internet,F360$romantic,stringsAsFactors = FALSE)
td1=as.character(mydf[1,])
td2=as.character(mydf[2,])
d1=paste(td1[1],td1[2],td1[3],td1[4],sep = " ")
d2=paste(td2[1],td2[2],td2[3],td2[4],sep = " ")
myvector=c(d1,d2)
mycorpus=Corpus(VectorSource(myvector))
dtm=as.matrix(DocumentTermMatrix(mycorpus))
jdist=as.matrix(dist(dtm,method = "jaccard"))
jsim=1-jdist
Я ожидаю сходства между каждой парой строки во фрейме данных.