Матрица вероятности перехода для предложений - PullRequest
0 голосов
/ 06 февраля 2012

У меня есть предложения, хранящиеся в виде строк, извлеченных из документа.Я хочу применить стандартное косинусное сходство к предложениям.Как мне это сделать?

Ответы [ 2 ]

0 голосов
/ 07 февраля 2012

Прежде всего, прочитайте о Матрица термина-документа

Затем перейдите к вычислению косинуса, используя Калькулятор сходства косинусов

Если вас интересует интеллектуальный анализ текста, перейдите к SVD и, наконец, Скрытый семантический анализ

0 голосов
/ 06 февраля 2012

Ну, у вас уже есть формула в Википедии .Каждое из Ai - это слово, поэтому сначала вам нужно вычислить частоту слов в вашем документе.Вы должны быть в состоянии создать карту вхождений слов.Затем вы представляете каждое предложение вектором слов и можете применить формулу.

...