Как вычислить косинусное сходство двух документов в Perl? Несколько вопросов:
1) Существуют ли уже модули для вычисления расстояния сходства косинусов в CPAN? Или эта задача достаточно проста для написания кода?
2) Когда я говорю документы, я действительно имею в виду, что один «документ» - это предложение, а другой «документ» - это просто список ключевых слов. Чтобы быть справедливым, я должен токенизировать, нижний регистр и отсортировать все ключевые слова в каждом документе, соответственно, прежде чем вычислить расстояние косинуса сходства?