Question

Мне нужна настраиваемая поисковая система, которая объединяет обычную индексацию неструктурированных HTML-документов с сгенерированным пользователем тегом для каждого документа веб-приложения.У меня уже есть алгоритм, который присваивает оценку каждому тегу, я хотел бы интегрировать вес тега, связанного с документом, с системой индексации поисковой системы.

uncaught_exceptions · Answer 1 · 09 апреля 2011

Самой зрелой платформой с открытым исходным кодом для решения вашей проблемы, безусловно, является Lucene. Если вы хотите использовать Lucene в его собственной форме или использовать слой абстракции, такой как Solr, как упомянул @steen, решать вам. Но основная идея проста.

1- Подготовьте исходный документ для индексирования. Вы можете использовать Tika или любой другой нативный парсер XML, все будет в порядке. (Когда я имел в виду подготовку, вам нужно разделить документ по отдельным полям).

2 - Насколько я понимаю, вам не нужен какой-либо специальный анализатор, вы можете просто использовать стандартный анализатор (который поставляется в комплекте с люценом). Просто убедитесь, что вы используете опцию «Analyzer_With_Norms» при индексации.

3 - причина, по которой вам нужен параметр норм, как упомянуто в предыдущем пункте, заключается в том, что теперь вы можете указать свой вес для каждого поля при индексации.

Для тех, кто не знаком с Lucene, все это может показаться очень запутанным. Я предлагаю книгу Lucene In Action для лучшего понимания Lucene.

Steen · Answer 2 · 07 апреля 2011

Я бы определенно пошел с Solr . Вам нужно будет немного настроить индексирование HTML:

Прежде всего, вам нужно подумать о том, какие элементы html-страницы должны попадать в конкретные поля Solr. Вы указываете, что тематический html является «неструктурированным», но если страницы имеют какие-либо общие черты, вам будет полезно хранить их в отдельных полях вашего индекса.
Вы должны взглянуть на tika HtmlParser , который работает очень хорошо вместе с solr.

В связи с проблемой, связанной с тем, что сгенерированные пользователем теги обеспечивают дополнительное семантическое значение для проиндексированных страниц, я бы предложил прочитать Справочник по релевантности Solr для получения информации о том, как выполнить индексное повышение полей

Поисковая система, которая объединяет проиндексированный текст с тегами, созданными пользователем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поисковая система, которая объединяет проиндексированный текст с тегами, созданными пользователем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы