Я не знаю много о поиске музыки, но в текстовом поиске LSA имеет значение только в том случае, если поисковая система использует модель векторного поиска информации.Наиболее распространенные поисковые системы, такие как Lucene, разбивают каждый документ на слова (токены), удаляют стоп-слова и помещают остальные из них в указатель, каждый из которых обычно связан с термином веса , указывающим на важностьтермин в документе.
Теперь список пар (токен, вес) можно рассматривать как вектор, представляющий документ.Если вы объедините все эти векторы в огромную матрицу и примените к ней алгоритм LSA ( после обхода и токенизации, но до индексации), вы можете использовать результат алгоритма LSAдля преобразования векторов всех документов перед их индексацией.
Обратите внимание, что в исходных векторах токены представляли размеры векторного пространства.LSA предоставит вам новый набор измерений, и вам придется индексировать их (например, в виде автоматически генерируемых целых чисел) вместо токенов.
Кроме того, вам придется преобразовать запрос ввектор пар (токен, вес), а затем применить преобразование на основе LSA к этому вектору.
Я не уверен, действительно ли кто-либо делает все это в любом реальном механизме поиска текста,Одна проблема состоит в том, что выполнение алгоритма LSA на матрице всех векторов документа занимает много времени и памяти.Другая проблема - обработка обновлений, т.е. когда добавляется новый документ или изменяется существующий.В идеале вы должны пересчитать матрицу, повторно запустить LSA, а затем изменить все существующие векторы документов и заново сгенерировать весь индекс.Не совсем масштабируемый.