Концепции латентного семантического анализа - PullRequest
13 голосов
/ 15 августа 2011

Я читал об использовании разложения по сингулярным значениям (SVD) для выполнения скрытого семантического анализа (LSA) в совокупности текстов.Я понял, как это сделать, а также я понимаю математические концепции SVD.

Но я не понимаю, почему это работает применительно к корпусам текстов (я полагаю - должно быть лингвистическое объяснение) .Кто-нибудь может объяснить мне это с лингвистической точки зрения?

Спасибо

Ответы [ 3 ]

12 голосов
/ 04 октября 2011

Нет лингвистической интерпретации, здесь нет синтаксиса, нет обработки классов эквивалентности, синонимов, омонимов, основ и т. Д. Также нет никакой семантики, это просто слова, встречающиеся вместе.Рассматривайте «документ» как корзину для покупок: она содержит комбинацию слов (покупки).И слова имеют тенденцию встречаться вместе с «родственными» словами.

Например: слово «наркотик» может встречаться вместе с {любовью, доктором, медициной, спортом, преступностью};каждый укажет вам в другом направлении.Но в сочетании со многими другими словами в документе ваш запрос, вероятно, найдет документы из аналогичного поля.

4 голосов
/ 04 октября 2011

Слова, встречающиеся вместе (то есть рядом или в одном и том же документе в корпусе), влияют на контекст. Скрытый семантический анализ в основном группирует похожие документы в корпусе, основываясь на том, насколько они похожи друг на друга с точки зрения контекста.

Я думаю, что пример и сюжет Word-Document на этой странице помогут в понимании.

3 голосов
/ 02 декабря 2014

Предположим, у нас есть следующий набор из пяти документов

  • d1: Ромео и Джульетта.
  • d2: Джульетта: О, счастливый кинжал!
  • d3: Ромео умер от кинжала.
  • d4: «Живи свободным или умри» - вот девиз Нью-Гемпшира.
  • d5: Знаете ли вы, Нью-Гэмпшир находится в Новой Англии.

и поисковый запрос: умирает, кинжал .

Ясно, что d3 должен занимать верхнюю часть списка, поскольку он содержит оба кристалла, кинжал.Затем следует d2 и d4, каждое из которых содержит слово запроса.Однако как насчет d1 и d5?Должны ли они быть возвращены как возможно интересные результаты для этого запроса?Как люди, мы знаем, что d1 довольно сильно связан с запросом.С другой стороны, d5 не так сильно связан с запросом.Таким образом, мы хотели бы d1, но не d5, или иначе говоря, мы хотим, чтобы d1 был ранжирован выше, чем d5.

Вопрос: может ли машина сделать это?Ответ - да, LSI делает именно это.В этом примере LSI сможет увидеть, что термин dagger связан с d1, потому что он встречается вместе с терминами d1 Romeo и Juliet, в d2 и d3 соответственно.Кроме того, термин dies связан с d1 и d5, потому что он встречается вместе с термином d1 Ромео и d5 с термином Нью-Гемпшир в d3 и d4 соответственно.LSI также будет правильно взвешивать обнаруженные соединения;d1 больше связано с запросом

, чем d5, так как d1 «вдвойне» связан с кинжалом через Ромео и Джульетту, а также подключен к смерти через Ромео, тогда как d5 имеет только одну связь с запросом через NewХэмпшир.

Ссылка: скрытый семантический анализ (Алекс Томо)

...