Жаккар Сходство в Люцене - PullRequest
3 голосов
/ 14 июля 2011

Мне нужно вычислить сходство запроса и документа в Lucene, используя сходство Жакара по n-граммам.Поскольку сходство с Jaccard является очень распространенным показателем в IR, я ожидал найти для него реализацию Lucene, но не смог.

Кто-нибудь знает о такой реализации?

Ответы [ 2 ]

2 голосов
/ 14 июля 2011

Единственная известная мне реализация, которую можно легко интегрировать с Lucene, - это LingPipe (обратите внимание, что она бесплатна только для некоммерческого / исследовательского использования). Здесь - сообщение в блоге, показывающее, как использовать его в LingPipe.Подробное объяснение о том, как соединить обе библиотеки, доступно на веб-сайте LingPipe и в этой книге .

Я не оценивал, однако, если бы это не было проще (также с точки лицензиизрения) интегрировать какую-то другую реализацию самостоятельно - это просто решение, которое сработало для меня.

1 голос
/ 23 августа 2013

Попробуйте эту библиотеку http://sourceforge.net/projects/simmetrics/ вы найдете гораздо больше функций подобия.Но я рекомендую вам использовать SoftTFIDF из http://secondstring.sourceforge.net/,, он имеет наилучшую точность / отзыв в соответствии с «Сравнением метрик расстояния строки для задач сопоставления имен».Уильям У. Коэн и другие.

...