Скажем, у вас есть куча информации, которую вы хотели бы сделать доступной для поиска. Например, некоторые HTML-файлы, некоторые PDF-файлы и некоторая информация хранятся в базе данных. Когда пользователь выполняет поиск, вы можете написать поисковую систему, которая просматривает эту информацию и возвращает результаты, которые соответствуют. Однако это обычно слишком медленно для больших наборов данных.
Таким образом, перед запуском нашего приложения мы создаем индекс информации, которая должна быть доступна для поиска. Индекс содержит сводку каждой части информации, которую мы хотели бы включить в поиск. В Lucene сводка для информационного фрагмента называется document . Документ содержит несколько полей .
При создании индекса вы решаете, какие поля включать, основываясь на том, что вы хотите сделать доступным для поиска. Например, вы можете указать заголовок, идентификатор, строку категории и т. Д. Как только поля определены, вы создаете документ в индексе для каждого информационного элемента (html, pdf, записи в базе данных и т. Д.). Этот процесс называется индексация .
Поисковая система теперь может использовать индекс для поиска вещей. Индекс высоко оптимизирован для типичных поисков, которые мы делаем. Вы можете искать информацию в определенных полях и выполнять логическую логику. Вы можете искать точные совпадения или нечеткие. И поисковая система будет взвешивать / оценивать ваши документы в индексе, возвращая сначала наиболее релевантные.
Надеюсь, это поможет на высоком уровне.