Измерение сходства между наборами документов - PullRequest
7 голосов
/ 20 мая 2011

Для иллюстрации предположим, что это сервис форума.Мне нужно вычислить «сходство» между постами каждого пользователя, чтобы результат был примерно таким:

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...

Я имею дело с многобайтовыми строками, поэтому я думаю, что застрял в поисковых системахВот.Мы уже используем Solr, уже реализовали moreLikeThis, но я не совсем уверен, как построить запрос.Любая помощь приветствуется!

Ответы [ 3 ]

1 голос
/ 15 сентября 2011

Возможно Carrot2 вас заинтересует (и этот блог относится к нему)

0 голосов
/ 09 декабря 2011

Существует несколько мер сходства, простой и эффективный - косинусное сходство.Есть более сложные, такие как Смит-Уотерман и т. Д.,

Посмотрите на http://sourceforge.net/projects/simmetrics/

0 голосов
/ 28 июля 2011

странный вопрос по двум причинам: 1. Почему вы должны иметь дело с SOLR? 2. Вид сходства зависит от целевой задачи. Ваш вопрос звучит слишком общий для меня. Ведутся исследования в области семантического сходства. Есть алгоритм редактирования расстояния, который вероятно не тот, который вы хотите.

Итак, определите свой вопрос более точно, и вы получите лучшие ответы.

...