Какова роль скрытого семантического анализа в разработке поисковых систем? - PullRequest
1 голос
/ 21 февраля 2012

Я пытаюсь разработать музыкальную поисковую систему для моего проекта последнего года. Я проводил некоторые исследования по латентному семантическому анализу и его работе в Интернете.У меня проблемы с пониманием, где LSI находится именно во всей системе поисковых систем.Следует ли использовать его после того, как сканер завершил поиск веб-страниц?

1 Ответ

1 голос
/ 24 февраля 2012

Я не знаю много о поиске музыки, но в текстовом поиске LSA имеет значение только в том случае, если поисковая система использует модель векторного поиска информации.Наиболее распространенные поисковые системы, такие как Lucene, разбивают каждый документ на слова (токены), удаляют стоп-слова и помещают остальные из них в указатель, каждый из которых обычно связан с термином веса , указывающим на важностьтермин в документе.

Теперь список пар (токен, вес) можно рассматривать как вектор, представляющий документ.Если вы объедините все эти векторы в огромную матрицу и примените к ней алгоритм LSA ( после обхода и токенизации, но до индексации), вы можете использовать результат алгоритма LSAдля преобразования векторов всех документов перед их индексацией.

Обратите внимание, что в исходных векторах токены представляли размеры векторного пространства.LSA предоставит вам новый набор измерений, и вам придется индексировать их (например, в виде автоматически генерируемых целых чисел) вместо токенов.

Кроме того, вам придется преобразовать запрос ввектор пар (токен, вес), а затем применить преобразование на основе LSA к этому вектору.

Я не уверен, действительно ли кто-либо делает все это в любом реальном механизме поиска текста,Одна проблема состоит в том, что выполнение алгоритма LSA на матрице всех векторов документа занимает много времени и памяти.Другая проблема - обработка обновлений, т.е. когда добавляется новый документ или изменяется существующий.В идеале вы должны пересчитать матрицу, повторно запустить LSA, а затем изменить все существующие векторы документов и заново сгенерировать весь индекс.Не совсем масштабируемый.

...