У меня есть предложения, хранящиеся в виде строк, извлеченных из документа.Я хочу применить стандартное косинусное сходство к предложениям.Как мне это сделать?
Прежде всего, прочитайте о Матрица термина-документа
Затем перейдите к вычислению косинуса, используя Калькулятор сходства косинусов
Если вас интересует интеллектуальный анализ текста, перейдите к SVD и, наконец, Скрытый семантический анализ
Ну, у вас уже есть формула в Википедии .Каждое из Ai - это слово, поэтому сначала вам нужно вычислить частоту слов в вашем документе.Вы должны быть в состоянии создать карту вхождений слов.Затем вы представляете каждое предложение вектором слов и можете применить формулу.
Ai