Commons Digester: Как создавать сложные запросы на основе XML с помощью Apache Lucene? - PullRequest
0 голосов
/ 25 февраля 2011

Мне нужно создать запрос на основе XML с помощью Apache Lucene и Commons Digester.

Мои документы имеют этот формат:

<doc>
<id>361492799</id>
<title>Dan1</title>
<description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description>
<time>18934934</time>
<tags>flickrmeetup rochester dan totheright 200701</tags>
<geo><latitude>324234</latitude><longitude>28342349</longitude></geo>
<event>135961</event>
</doc>

И запрос на самом деле также является документом, который мне нужно сравнить со всей коллекцией. Каждый атрибут имеет различную метрику сходства. Например, «описание» имеет косинусное сходство tf-idf. «Время» - это просто разница, а «широта» + «долгота» сравниваются с использованием расстояния haversine.

Пока я выполнял поиск только по простым текстовым запросам, таким как "word1 word2". Как мне вместо этого построить более сложные запросы?

Спасибо

Ответы [ 2 ]

0 голосов
/ 26 февраля 2011

Мне нужно создать запрос на основе XML с помощью Apache Lucene и Commons Digester.

Эта статья должна помочь вам начать работу

для анализа содержимого из xml, взгляните на TIKA

Apache Tika - инструментарий анализа контента

Apache Tika ™инструментарий для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.

0 голосов
/ 26 февраля 2011

Вы смотрели на SOLR? SOLR - это в основном Lucene + целый сервер запросов и индексации на основе XML.

...