Question

Я хотел бы проиндексировать набор документов, которые будут содержать полуструктурированные данные, обычно пары ключ-значение, что-то вроде @author Joe Bloggs. Эти ключевые слова должны быть доступны для поиска в качестве атрибутов документа, к которым можно обращаться по отдельности.

Я смотрю на Lucene и могу создать индекс по интересующим меня документам, но не знаю, как лучше перейти к следующему шагу извлечения ключевых слов.

Есть ли общий подход для этого в Lucene или другой системе индексации? Я хотел бы иметь возможность поиска по документам с использованием обычного поиска слов, как я уже могу, и поэтому хотел бы что-то большее, чем обычное извлечение регулярных выражений.

Любая помощь будет принята с благодарностью.

Найл

fgysin · Answer 1 · 14 сентября 2011

Я написал поисковую систему с исходным кодом, используя Lucene как часть моей дипломной работы. Одной из ключевых особенностей было то, что исходный код обрабатывался как структурированная информация, и поэтому должен быть доступен для поиска как таковой, то есть для поиска в соответствии с атрибутами, как вы описали выше.

Здесь вы можете найти больше информации об этом проекте. Если это слишком много для вас, я могу подвести итог некоторым вещам:

Я создал отдельные поля поиска для всех атрибутов, которые должны быть доступны для поиска. В моем случае это, например, «имя метода» или «комментарий» или «имя класса».
Может быть полезно, чтобы содержимое этих полей перекрывалось, однако это взорвет индекс вашей базы данных (но только линейно с появлением избыточных данных в полях с возможностью поиска).

Индексирование полуструктурированных данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Индексирование полуструктурированных данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов