Question

Я читал об использовании разложения по сингулярным значениям (SVD) для выполнения скрытого семантического анализа (LSA) в совокупности текстов.Я понял, как это сделать, а также я понимаю математические концепции SVD.

Но я не понимаю, почему это работает применительно к корпусам текстов (я полагаю - должно быть лингвистическое объяснение) .Кто-нибудь может объяснить мне это с лингвистической точки зрения?

Спасибо

wildplasser · Answer 1 · 04 октября 2011

Нет лингвистической интерпретации, здесь нет синтаксиса, нет обработки классов эквивалентности, синонимов, омонимов, основ и т. Д. Также нет никакой семантики, это просто слова, встречающиеся вместе.Рассматривайте «документ» как корзину для покупок: она содержит комбинацию слов (покупки).И слова имеют тенденцию встречаться вместе с «родственными» словами.

Например: слово «наркотик» может встречаться вместе с {любовью, доктором, медициной, спортом, преступностью};каждый укажет вам в другом направлении.Но в сочетании со многими другими словами в документе ваш запрос, вероятно, найдет документы из аналогичного поля.

KK. · Answer 2 · 04 октября 2011

Слова, встречающиеся вместе (то есть рядом или в одном и том же документе в корпусе), влияют на контекст. Скрытый семантический анализ в основном группирует похожие документы в корпусе, основываясь на том, насколько они похожи друг на друга с точки зрения контекста.

Я думаю, что пример и сюжет Word-Document на этой странице помогут в понимании.

Sampath Liyanage · Answer 3 · 02 декабря 2014

Предположим, у нас есть следующий набор из пяти документов

d1: Ромео и Джульетта.
d2: Джульетта: О, счастливый кинжал!
d3: Ромео умер от кинжала.
d4: «Живи свободным или умри» - вот девиз Нью-Гемпшира.
d5: Знаете ли вы, Нью-Гэмпшир находится в Новой Англии.

и поисковый запрос: умирает, кинжал .

Ясно, что d3 должен занимать верхнюю часть списка, поскольку он содержит оба кристалла, кинжал.Затем следует d2 и d4, каждое из которых содержит слово запроса.Однако как насчет d1 и d5?Должны ли они быть возвращены как возможно интересные результаты для этого запроса?Как люди, мы знаем, что d1 довольно сильно связан с запросом.С другой стороны, d5 не так сильно связан с запросом.Таким образом, мы хотели бы d1, но не d5, или иначе говоря, мы хотим, чтобы d1 был ранжирован выше, чем d5.

Вопрос: может ли машина сделать это?Ответ - да, LSI делает именно это.В этом примере LSI сможет увидеть, что термин dagger связан с d1, потому что он встречается вместе с терминами d1 Romeo и Juliet, в d2 и d3 соответственно.Кроме того, термин dies связан с d1 и d5, потому что он встречается вместе с термином d1 Ромео и d5 с термином Нью-Гемпшир в d3 и d4 соответственно.LSI также будет правильно взвешивать обнаруженные соединения;d1 больше связано с запросом

, чем d5, так как d1 «вдвойне» связан с кинжалом через Ромео и Джульетту, а также подключен к смерти через Ромео, тогда как d5 имеет только одну связь с запросом через NewХэмпшир.

Ссылка: скрытый семантический анализ (Алекс Томо)

Концепции латентного семантического анализа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Концепции латентного семантического анализа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы