Нужно ли корректировать длину, сравнивая косинусное сходство для разных пар документов? - PullRequest
0 голосов
/ 05 мая 2019

Предположим, что у меня есть два документа, A и B, и у каждого документа есть две версии, 1 и 2. Я вычисляю косинусное сходство для (A1, A2) и (B1, B2).Пусть Sa = косинус (A1, A2) и Sb = косинус (B1, B2).

Если Sa

В документе утверждается, что: «Чем длиннее пара документов, тем более вероятно, что слово включено в оба документа, что снижает вероятность того, что документы будут различаться (см. Приложение B для аналитического доказательства)."Бумагу можно найти ЗДЕСЬ .

Это правда?Это утверждение, скорее всего, верно для сходства с Жакаром, поскольку размер словарного запаса ограничен.Однако косинусное сходство - это угол, и интуитивно длина документов не должна иметь значения.Если это так, то каков наилучший способ скорректировать показатели сходства по длине, чтобы я мог провести сравнение по разным парам документов.Спасибо!

Я запускаю некоторые статистические данные на основе 22861 пар.Действительно, длина документа и сходство сильно положительно коррелируют.Средние значения:

WC2          4829.637374
WCl          4389.449193
WCA          4609.543283
Cosine         0.750225
CosineR        0.786806
Jaccard        0.606962
JaccardR       0.653031

Где:

WC2 - это чистый счетчик слов версии2, исключая стоп-слова, цифры и знаки препинания.WCA - среднее значение (WC1 и WC2).Косинус - это чистое сходство косинусов, основанное на чистых словах.
CosineR - это сходство косинусов, основанное на всех жетонах (включая стоп-слова, числа и знаки препинания).

Вот корреляционная матрица Пирсона:

                WC2       WCl       WCA    Cosine   CosineR   Jaccard  JaccardR
WC2       1.000000  0.886743  0.972220  0.121300  0.122131  0.107936  0.123040
WCl       0.886743  1.000000  0.970310  0.238503  0.257914  0.220078  0.254090
WCA       0.972220  0.970310  1.000000  0.184233  0.194497  0.167911  0.193036
Cosine    0.121300  0.238503  0.184233  1.000000  0.978050  0.982066  0.971082
CosineR   0.122131  0.257914  0.194497  0.978050  1.000000  0.948325  0.981853
Jaccard   0.107936  0.220078  0.167911  0.982066  0.948325  1.000000  0.975908
JaccardR  0.123040  0.254090  0.193036  0.971082  0.981853  0.975908  1.000000

1 Ответ

0 голосов
/ 05 мая 2019

Как вы сказали, длина документа не отражается в косинусном сходстве.Вы можете умножить косинус сходства на абсолютную величину разницы длины документов (||A1|-|A2||*Sa и ||B1|-|B2||*Sb).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...