Каковы основные различия между поисковыми системами (DtSearch, Lucene.net, Sphinx, Google и т. Д.), Которые должны влиять на решение о том, какой использовать для поиска конфиденциальных данных?
Данные для поиска состоят из данных без представления, которые размечены метаданными в форме пар имя / значение. Нас не интересуют возможности разбора форматов различных инструментов. Кроме того, результаты поиска должны быть хорошо структурированными данными без представления, которые можно агрегировать с результатами поиска из других (аналогично структурированных хранилищ.
Некоторые соответствующие характеристики поисковой системы, которые должны сообщить решение, перечислены ниже. Дальнейшие предложения или описание опыта приветствуются.
• Стоимость
• простота использования
• Может быть настроен для возврата только определенных тегов
• Может «определить» конкретные термины, чтобы результаты поиска имели больший вес для этих результатов
• Быстрая <0,3 секунды для возврата результатов поиска или% E6 записей / документов
• Поддержка тегов с типами (найти погоду = «солнечно», но не личность = солнечно)
• Поддержка весов, чтобы дать рейтинг релевантности
• Вернуть результаты в ранжированном порядке по релевантности
• Поддерживает синонимы
• Поддерживает стволы
• Поддерживает стоп-слова
• Поддерживает правописание исправлений
• Подходит для распараллеливания или построения индекса (если на основе индекса)
• Быстрая переиндексация (если на основе индекса)
• Быстрое обновление индекса (если на основе индекса)
• Объединить результаты из нескольких индексов (если на основе индекса)
• Проверка на близость: придавайте большее значение словам, найденным близко друг к другу </p>