«готовые» матрицы для скрытого семантического анализа - PullRequest
2 голосов
/ 06 ноября 2010

Я хочу использовать скрытый семантический анализ для небольшого приложения, которое я создаю, но я не хочу создавать матрицы самостоятельно. (Отчасти потому, что документы, которые у меня есть, не могли бы составить очень хорошую учебную коллекцию, потому что они довольно короткие и разнородные, а отчасти потому, что у меня только что появился новый компьютер, и я считаю его стервой для установки линейной алгебры и тому подобное библиотеки мне понадобятся.)

Существуют ли какие-либо "стандартные" / готовые реализации LSA? Например, я ищу следующие вещи:

  • Матрицы U, S, V по умолчанию (т. Е. Если D является матрицей терминологического документа из некоторого обучающего набора, то D = USV ^ T - разложение по сингулярному значению), так что для любого вектора запроса q я могу использовать эти матрицы для вычисления проекции LSA для себя.
  • Некоторый алгоритм LSA черного ящика, который, учитывая вектор запроса q, возвращает проекцию LSA q.

1 Ответ

2 голосов
/ 29 ноября 2010

Возможно, вас заинтересует фреймворк Gensim для Python; в частности, у него есть пример построения соответствующих матриц из английской Википедии .

...