Ну да - Lucene - это поисковая система. (Если быть более точным: это библиотека, которая позволяет создавать поисковую систему). Чтобы получить поисковую систему, вам нужен текстовый индекс, и Lucene также предоставляет его. И это довольно мощный инструмент - он включает stemmers для английского и некоторых других языков, и, по моему опыту, он работает быстро даже с большими объемами данных.
Lucene не будет анализировать HTML для вас, поэтому вам нужно сделать это, прежде чем помещать текст в индекс.