Text2Ve c: использование сходства Жаккара / Косинуса вместо расстояния «Расслабленный переводчик слов» для задачи сходства документов - PullRequest
0 голосов
/ 21 апреля 2020

Я сравниваю несколько методов для задачи подобия документа. В одном методе я представляю свой текст, используя Glove WordEmbeddings, и вычисляю сходство документов, используя расстояние Relaxed Word Mover (RWM), см. Код ниже из пакета text2ve c.

Я хотел бы проверить, могу ли я повысить производительность, используя расстояние косинуса и / или жаккарты вместо расстояния RWM для сравнения сходства моих документов.

Есть ли способ реализовать это?

tokens = word_tokenizer(tolower(data$text))
v = create_vocabulary(itoken(tokens)) 
v = prune_vocabulary(v, term_count_min = 2) 
it = itoken(tokens)
vectorizer = vocab_vectorizer(v)
dtm = create_dtm(it, vectorizer)
tcm = create_tcm(it, vectorizer, skip_grams_window = 5) 
glove_model = GloVe$new(rank = 50, x_max = 10)
wv = glove_model$fit_transform(tcm, n_iter = 5)
wv = wv + t(glove_model$components)
rwmd_models = RelaxedWordMoversDistance$new(dtm, wv)
rwmd = rwmd_models$dist2(dtm)
head(sort(rwm[1, ], decreasing = T))
...