После того, как вы загрузили свою веб-страницу, вам нужно усечь дополнительную бесценную информацию с ваших веб-страниц (реклама, несвязанный текст, ...).Используя эту стратегию, вы уменьшите размер страницы, которую следует хранить в базе данных, и в результатах поиска появится более актуальная информация.
Я предлагаю вам создать программу, извлечь ценную информацию и сохранить ее в базе данных (если вы этого не сделаетенужна оригинальная страница) после этого вы можете создать указанную выше библиотеку lucene для поиска вашей информации
Если вам нужна более точная информация, вы можете проанализировать свою страницу и сохранить некоторые правила (направление содержимого, категория, ссылки на ресурсы внешних ресурсов)., ценная информация для всего текста скорость, ....), чтобы создать рейтинг для вашей страницы, которая является методы добычи текста.