Мне нужно найти сходство между справочным документом и набором документов в хранилище.
Method :
1. I find the term document matrix for all the documents including the reference document
2. The svd is calculated for this matrix
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document .
5. The first row represents the reference document .
6. I find the cosine similarity beween this row and the rest of the rows
Мои сомнения:
Поскольку в моей базе данных около 7 документов, я получаю только 8 * 8 varray (матрица документов).Так получу ли я правильный результат, если найду косинусное сходство только с этими 8 значениями?
Является ли такой метод общепринятым?
Я использую Java для кодирования этого.Я использую пакет jama, чтобы найти svd.