Сомнения в отношении АЛП - PullRequest
0 голосов
/ 27 января 2012

Мне нужно найти сходство между справочным документом и набором документов в хранилище.

Method : 

1. I find the term document matrix for all the documents including the reference document 
2. The svd is calculated for this matrix 
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document . 
5. The first row represents the reference document . 
6. I find the cosine similarity beween this row and the rest of the rows 

Мои сомнения:

  1. Поскольку в моей базе данных около 7 документов, я получаю только 8 * 8 varray (матрица документов).Так получу ли я правильный результат, если найду косинусное сходство только с этими 8 значениями?

  2. Является ли такой метод общепринятым?

Я использую Java для кодирования этого.Я использую пакет jama, чтобы найти svd.

1 Ответ

0 голосов
/ 27 января 2012
  • Я пытался с Matlab, используя ящик для инструментов TMG. Работает нормально.
  • Для лучших результатов (или для большей точности) используйте большие наборы данных.
  • В LSA svd является его частью (для уменьшения размеров). За вычисление вашего косинуса сходство, вам потребуется последняя матрица, которую вы получите после этого расчета A = U * S * V ^ t.

Вы можете прочитать пример LSA Здесь

...