Модель векторного пространства - вычислен вектор запроса [0, 0,707, 0,707] - PullRequest
0 голосов
/ 03 декабря 2018

Я читаю книгу «Введение в поиск информации» (Кристофер Мэннинг), и я застрял в главе 6, когда она вводит запрос «ревнивая сплетня», для которого она указала, что связанная единица вектора равна [0,0,707, 0,707] (https://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html) с учетом терминов аффект, ревность и сплетни.Я попытался вычислить его, вычислив tf idf, предполагая, что: - Tf равен 1 для ревнивых и сплетен - Idf всегда равен 0, если мы вычисляем его как log (N / df) с N = 1 (Iесть только 1 запрос, и это мой документ), df = 1 для ревнивых и сплетни => log (1) = 0 Поскольку idf равен 0, получается, что tf idf равно 0. Поэтому я решил вычислитькаждый вес вектора запроса с необработанным tf, разделенным на евклидову длину.В этом случае евклидова длина равна sqrt (1 + 1) = 1.Я не могу получить формулу, по которой было решено, что [0, 0,707, 0,707] является вектором запроса.Кто-нибудь может мне помочь?

1 Ответ

0 голосов
/ 04 декабря 2018

Я не справился с проблемой, но думаю, что проблема может заключаться в том, что sqrt(1+1) равно sqrt(2), поэтому при нормализации каждая из 1 становится 1/sqrt(2) = 0.707.

...