Поисковая система, которая объединяет проиндексированный текст с тегами, созданными пользователем - PullRequest
0 голосов
/ 31 марта 2011

Мне нужна настраиваемая поисковая система, которая объединяет обычную индексацию неструктурированных HTML-документов с сгенерированным пользователем тегом для каждого документа веб-приложения.У меня уже есть алгоритм, который присваивает оценку каждому тегу, я хотел бы интегрировать вес тега, связанного с документом, с системой индексации поисковой системы.

Ответы [ 2 ]

3 голосов
/ 09 апреля 2011

Самой зрелой платформой с открытым исходным кодом для решения вашей проблемы, безусловно, является Lucene. Если вы хотите использовать Lucene в его собственной форме или использовать слой абстракции, такой как Solr, как упомянул @steen, решать вам. Но основная идея проста.

1- Подготовьте исходный документ для индексирования. Вы можете использовать Tika или любой другой нативный парсер XML, все будет в порядке. (Когда я имел в виду подготовку, вам нужно разделить документ по отдельным полям).

2 - Насколько я понимаю, вам не нужен какой-либо специальный анализатор, вы можете просто использовать стандартный анализатор (который поставляется в комплекте с люценом). Просто убедитесь, что вы используете опцию «Analyzer_With_Norms» при индексации.

3 - причина, по которой вам нужен параметр норм, как упомянуто в предыдущем пункте, заключается в том, что теперь вы можете указать свой вес для каждого поля при индексации.

Для тех, кто не знаком с Lucene, все это может показаться очень запутанным. Я предлагаю книгу Lucene In Action для лучшего понимания Lucene.

2 голосов
/ 07 апреля 2011

Я бы определенно пошел с Solr . Вам нужно будет немного настроить индексирование HTML:

  • Прежде всего, вам нужно подумать о том, какие элементы html-страницы должны попадать в конкретные поля Solr. Вы указываете, что тематический html является «неструктурированным», но если страницы имеют какие-либо общие черты, вам будет полезно хранить их в отдельных полях вашего индекса.
  • Вы должны взглянуть на tika HtmlParser , который работает очень хорошо вместе с solr.

В связи с проблемой, связанной с тем, что сгенерированные пользователем теги обеспечивают дополнительное семантическое значение для проиндексированных страниц, я бы предложил прочитать Справочник по релевантности Solr для получения информации о том, как выполнить индексное повышение полей

...