Каковы основные различия между поисковыми системами, которые должны влиять на решение о том, какой использовать для поиска конфиденциальных данных? - PullRequest
2 голосов
/ 10 ноября 2008

Каковы основные различия между поисковыми системами (DtSearch, Lucene.net, Sphinx, Google и т. Д.), Которые должны влиять на решение о том, какой использовать для поиска конфиденциальных данных?

Данные для поиска состоят из данных без представления, которые размечены метаданными в форме пар имя / значение. Нас не интересуют возможности разбора форматов различных инструментов. Кроме того, результаты поиска должны быть хорошо структурированными данными без представления, которые можно агрегировать с результатами поиска из других (аналогично структурированных хранилищ.

Некоторые соответствующие характеристики поисковой системы, которые должны сообщить решение, перечислены ниже. Дальнейшие предложения или описание опыта приветствуются.

• Стоимость • простота использования • Может быть настроен для возврата только определенных тегов • Может «определить» конкретные термины, чтобы результаты поиска имели больший вес для этих результатов • Быстрая <0,3 секунды для возврата результатов поиска или% E6 записей / документов • Поддержка тегов с типами (найти погоду = «солнечно», но не личность = солнечно) • Поддержка весов, чтобы дать рейтинг релевантности • Вернуть результаты в ранжированном порядке по релевантности • Поддерживает синонимы • Поддерживает стволы • Поддерживает стоп-слова • Поддерживает правописание исправлений • Подходит для распараллеливания или построения индекса (если на основе индекса) • Быстрая переиндексация (если на основе индекса) • Быстрое обновление индекса (если на основе индекса) • Объединить результаты из нескольких индексов (если на основе индекса) • Проверка на близость: придавайте большее значение словам, найденным близко друг к другу </p>

Ответы [ 2 ]

2 голосов
/ 21 ноября 2008

Мне нравится Solr с DataImportHandler. Он поддерживает большинство ваших пунктов и не слишком сложен в настройке, если вы не возражаете против редактирования некоторых файлов конфигурации XML. Это проще, чем многие поисковые системы корпоративного класса.

В GSA (Google Search Appliance) нет ничего плохого, но для желаемого уровня контроля Solr - лучший вариант.

Lucene / Solr

1 голос
/ 14 ноября 2008

Что касается релевантности, Google Search Appliance допускает небольшую настройку. Они считают, что допущение слишком большого количества настроек приведет к плохой релевантности, и я верю, что Google знает релевантность.

Вряд ли пользователи найдут поисковую систему, отличную от Google, более простой в использовании.

...