Соль поисковая оценка в диапазоне от 0 до 1 - PullRequest
1 голос
/ 28 мая 2010

Можно ли настроить Solr таким образом, чтобы оценка сходства документов находилась в диапазоне, например, от 0 (нет соответствия) до 1 (полное совпадение документа и запроса).

Спасибо!

Ответы [ 4 ]

0 голосов
/ 21 января 2011

Нет, я не говорю о булевых запросах, но спасибо за ресурс по схожести и оценке Lucene.

Что ж, я думаю о языковых моделях для поиска информации и задаюсь вопросом, если кто-нибудь знает, есть ли реализация этого в lucene / solr

http://nlp.stanford.edu/IR-book/html/htmledition/language-models-for-information-retrieval-1.html

0 голосов
/ 19 января 2011

Вам нужно это для какого-то UI-метра? Возможно, вам следует взглянуть на косинусное сходство между документами, http://en.wikipedia.org/wiki/Cosine_similarity, где первым документом является запрос.

0 голосов
/ 20 января 2011

Это должно быть возможно, вам нужно изменить функцию ранжирования люцена (solr использует lucene для внутреннего использования). Вы можете заменить реализацию по умолчанию. Я не знаю, сколько вам нужно времени, чтобы запустить его, но - если вам действительно нужен логический механизм поиска - вы можете это сделать. Вы должны начать расследование с этого документа .

Я не уверен, зачем вам такая функциональность, но я полагаю, что вы, возможно, захотите использовать Solr в качестве хранилища значений ключей. В таком случае вам необходимо изменить конфигурацию индексации - ваш анализатор не должен маркировать входной текст. Если это так, текст будет помещен в индекс без изменений (этот же анализатор используется для обработки запросов). Таким образом, если вы предоставите в запросе ключ («1234» для поля «MY_KEY»), вы получите соответствующий документ для этого ключа.

0 голосов
/ 30 мая 2010

Нет, tf-idf не работает таким образом, и концептуально поиск на самом деле не работает так.Как определить «полное совпадение»?

...