Я новичок в Solr и хочу точно понять, как он индексирует документы.
Допустим, у меня есть документ объемом 100 МБ (document1), полный текста.Текст не структурирован, это просто необработанный текст.Я отправляю этот документ в Solr для индексации.
Насколько я понял, Lucene проанализирует документ, извлечет все слова на основе схемы по умолчанию (предположим, мы используем схему по умолчанию)) и создайте индекс, который по сути является отображением между словом и списком документов, например:
word1 -> [document1]
word2 -> [document1]
и т. Д.
Теперь, если я хочу найти слово "word1", Solr выдаст мне весь документ размером 100 МБ, содержащий слово "word1" , , правильный ?
Пожалуйста, исправьте меня, если я ошибаюсь,Мне нужно точно понять, как это работает.