Я хочу использовать скрытый семантический анализ для небольшого приложения, которое я создаю, но я не хочу создавать матрицы самостоятельно. (Отчасти потому, что документы, которые у меня есть, не могли бы составить очень хорошую учебную коллекцию, потому что они довольно короткие и разнородные, а отчасти потому, что у меня только что появился новый компьютер, и я считаю его стервой для установки линейной алгебры и тому подобное библиотеки мне понадобятся.)
Существуют ли какие-либо "стандартные" / готовые реализации LSA? Например, я ищу следующие вещи:
- Матрицы U, S, V по умолчанию (т. Е. Если D является матрицей терминологического документа из некоторого обучающего набора, то D = USV ^ T - разложение по сингулярному значению), так что для любого вектора запроса q я могу использовать эти матрицы для вычисления проекции LSA для себя.
- Некоторый алгоритм LSA черного ящика, который, учитывая вектор запроса q, возвращает проекцию LSA q.