предложения по алгоритму сходства людей - PullRequest
4 голосов
/ 30 августа 2010

Я хочу получить некоторые предложения для моего алгоритма "найти похожих людей" :). У меня есть одна база данных, где я храню следующие объекты: персона, статья, ключевые слова. Поэтому для каждого человека у меня есть набор ключевых слов (с количеством упоминаний этого человека), которые были составлены из ключевых слов статей этого человека. Поэтому мне нужно найти похожих людей, посмотрев на их релевантные ключевые слова. Простым решением было бы получить x ключевых слов от человека y и найти всех людей, которые имеют одинаковые оценки ключевых слов (не равные), но, похоже, это не лучший способ. Мысли?

Спасибо!

1 Ответ

6 голосов
/ 30 августа 2010

Похоже, ваш случай достаточно близок к обычным запросам "подобия" системы поиска информации, которые вы могли бы использовать одну и ту же модель векторного пространства .

.вхождения каждого ключевого слова.Рассматривайте каждое ключевое слово как измерение, а число вхождений - как величину вектора в этом измерении.Обычно каждое измерение обрабатывается одинаково, но если вы обнаружили, что некоторые ключевые слова являются лучшими предикторами совместимости, вы можете масштабировать каждое вхождение в этом измерении по некоторому коэффициенту.люди дают вам оценку того, насколько они похожи.Или вы можете ввести свои собственные ключевые слова и найти людей, чьи интересы наиболее близки.

...