Предположим, что у меня есть два документа, A и B, и у каждого документа есть две версии, 1 и 2. Я вычисляю косинусное сходство для (A1, A2) и (B1, B2).Пусть Sa = косинус (A1, A2) и Sb = косинус (B1, B2).
Если Sa
В документе утверждается, что: «Чем длиннее пара документов, тем более вероятно, что слово включено в оба документа, что снижает вероятность того, что документы будут различаться (см. Приложение B для аналитического доказательства)."Бумагу можно найти ЗДЕСЬ .
Это правда?Это утверждение, скорее всего, верно для сходства с Жакаром, поскольку размер словарного запаса ограничен.Однако косинусное сходство - это угол, и интуитивно длина документов не должна иметь значения.Если это так, то каков наилучший способ скорректировать показатели сходства по длине, чтобы я мог провести сравнение по разным парам документов.Спасибо!
Я запускаю некоторые статистические данные на основе 22861 пар.Действительно, длина документа и сходство сильно положительно коррелируют.Средние значения:
WC2 4829.637374
WCl 4389.449193
WCA 4609.543283
Cosine 0.750225
CosineR 0.786806
Jaccard 0.606962
JaccardR 0.653031
Где:
WC2 - это чистый счетчик слов версии2, исключая стоп-слова, цифры и знаки препинания.WCA - среднее значение (WC1 и WC2).Косинус - это чистое сходство косинусов, основанное на чистых словах.
CosineR - это сходство косинусов, основанное на всех жетонах (включая стоп-слова, числа и знаки препинания).
Вот корреляционная матрица Пирсона:
WC2 WCl WCA Cosine CosineR Jaccard JaccardR
WC2 1.000000 0.886743 0.972220 0.121300 0.122131 0.107936 0.123040
WCl 0.886743 1.000000 0.970310 0.238503 0.257914 0.220078 0.254090
WCA 0.972220 0.970310 1.000000 0.184233 0.194497 0.167911 0.193036
Cosine 0.121300 0.238503 0.184233 1.000000 0.978050 0.982066 0.971082
CosineR 0.122131 0.257914 0.194497 0.978050 1.000000 0.948325 0.981853
Jaccard 0.107936 0.220078 0.167911 0.982066 0.948325 1.000000 0.975908
JaccardR 0.123040 0.254090 0.193036 0.971082 0.981853 0.975908 1.000000