Как создать индекс Lucene со случайными html-страницами, а затем разбить их на токены для выполнения запросов? - PullRequest
0 голосов
/ 11 декабря 2018

Я хочу создать индекс с некоторыми сохраненными файлами HTML.Проблема в том, что в этих файлах нет формата, это просто некоторые веб-страницы с некоторой информацией.Из того, что я прочитал, некоторые «поля» всегда необходимы, когда вы хотите проиндексировать каталог, чтобы следовать определенному формату.Я просто хочу индексировать файлы, маркировать их, а затем выполнять запросы к ним.Это возможно с lucene или я должен посмотреть на Apache Solr для этого?

Спасибо

Edit- Пример на этом сайте http://www.lucenetutorial.com/lucene-in-5-minutes.html имеет эту строку "doc.add (new TextField("title", title, Field.Store.YES)); "который следует за форматом.

...