text2ve c код сходства документа возвращает два значения - PullRequest
0 голосов
/ 28 апреля 2020

Я учусь оценивать сходство текста между документами. Просматривая учебник text2ve c (http://text2vec.org/similarity.html) для topi c, я заметил, что код возвращает два значения для сходства. Вот конец кода в руководстве от Дмитрия Селиванова:

d1_d2_cos_sim = sim2(dtm1, dtm2, method = "cosine", norm = "l2")
dim(d1_d2_cos_sim)

[1] 300 200

Какое возвращаемое значение (300 или 200) описывает сходство / различие текста?

1 Ответ

0 голосов
/ 29 апреля 2020

Это не описывает ни того, ни другого. dim просто возвращает количество строк и столбцов матрицы d1_d2_cos_sim, 300 на 200. Сходство находится внутри объекта d1_d2_cos_sim, как вы можете видеть в следующей строке кода d1_d2_cos_sim[1:2, 1:5], который возвращает первые 2 строки и первые 5 столбцов. Это показывает сходство первых двух документов d1 с первыми 5 документами d2.

...