Индексирование полуструктурированных данных - PullRequest
0 голосов
/ 14 сентября 2011

Я хотел бы проиндексировать набор документов, которые будут содержать полуструктурированные данные, обычно пары ключ-значение, что-то вроде @author Joe Bloggs. Эти ключевые слова должны быть доступны для поиска в качестве атрибутов документа, к которым можно обращаться по отдельности.

Я смотрю на Lucene и могу создать индекс по интересующим меня документам, но не знаю, как лучше перейти к следующему шагу извлечения ключевых слов.

Есть ли общий подход для этого в Lucene или другой системе индексации? Я хотел бы иметь возможность поиска по документам с использованием обычного поиска слов, как я уже могу, и поэтому хотел бы что-то большее, чем обычное извлечение регулярных выражений.

Любая помощь будет принята с благодарностью.

Найл

1 Ответ

1 голос
/ 14 сентября 2011

Я написал поисковую систему с исходным кодом, используя Lucene как часть моей дипломной работы. Одной из ключевых особенностей было то, что исходный код обрабатывался как структурированная информация, и поэтому должен быть доступен для поиска как таковой, то есть для поиска в соответствии с атрибутами, как вы описали выше.

Здесь вы можете найти больше информации об этом проекте. Если это слишком много для вас, я могу подвести итог некоторым вещам:

  • Я создал отдельные поля поиска для всех атрибутов, которые должны быть доступны для поиска. В моем случае это, например, «имя метода» или «комментарий» или «имя класса».
  • Может быть полезно, чтобы содержимое этих полей перекрывалось, однако это взорвет индекс вашей базы данных (но только линейно с появлением избыточных данных в полях с возможностью поиска).
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...