Предположим, у нас есть следующий набор из пяти документов
- d1: Ромео и Джульетта.
- d2: Джульетта: О, счастливый кинжал!
- d3: Ромео умер от кинжала.
- d4: «Живи свободным или умри» - вот девиз Нью-Гемпшира.
- d5: Знаете ли вы, Нью-Гэмпшир находится в Новой Англии.
и поисковый запрос: умирает, кинжал .
Ясно, что d3 должен занимать верхнюю часть списка, поскольку он содержит оба кристалла, кинжал.Затем следует d2 и d4, каждое из которых содержит слово запроса.Однако как насчет d1 и d5?Должны ли они быть возвращены как возможно интересные результаты для этого запроса?Как люди, мы знаем, что d1 довольно сильно связан с запросом.С другой стороны, d5 не так сильно связан с запросом.Таким образом, мы хотели бы d1, но не d5, или иначе говоря, мы хотим, чтобы d1 был ранжирован выше, чем d5.
Вопрос: может ли машина сделать это?Ответ - да, LSI делает именно это.В этом примере LSI сможет увидеть, что термин dagger связан с d1, потому что он встречается вместе с терминами d1 Romeo и Juliet, в d2 и d3 соответственно.Кроме того, термин dies связан с d1 и d5, потому что он встречается вместе с термином d1 Ромео и d5 с термином Нью-Гемпшир в d3 и d4 соответственно.LSI также будет правильно взвешивать обнаруженные соединения;d1 больше связано с запросом
, чем d5, так как d1 «вдвойне» связан с кинжалом через Ромео и Джульетту, а также подключен к смерти через Ромео, тогда как d5 имеет только одну связь с запросом через NewХэмпшир.
Ссылка: скрытый семантический анализ (Алекс Томо)