Я хотел бы проиндексировать набор документов, которые будут содержать полуструктурированные данные, обычно пары ключ-значение, что-то вроде @author Joe Bloggs
. Эти ключевые слова должны быть доступны для поиска в качестве атрибутов документа, к которым можно обращаться по отдельности.
Я смотрю на Lucene и могу создать индекс по интересующим меня документам, но не знаю, как лучше перейти к следующему шагу извлечения ключевых слов.
Есть ли общий подход для этого в Lucene или другой системе индексации? Я хотел бы иметь возможность поиска по документам с использованием обычного поиска слов, как я уже могу, и поэтому хотел бы что-то большее, чем обычное извлечение регулярных выражений.
Любая помощь будет принята с благодарностью.
Найл