Желательно ли для этого использовать Lucene? - PullRequest
0 голосов
/ 09 марта 2012

У меня огромный XML-файл размером около 2 ГБ, содержащий резюме. В этом файле тысячи резюме, помеченные правильно. Сейчас я использую XPATH для запроса. Так что лучше использовать Lucene для того же, а не XPATH?

Ответы [ 3 ]

3 голосов
/ 09 марта 2012

Зависит от ваших требований.Если вам нужен полнотекстовый поиск и все другие замечательные функции полноценной поисковой системы, Lucene - это то, что вам нужно.Я бы порекомендовал Solr , который основывается на lucene и обеспечивает намного лучший API и абстракцию.

1 голос
/ 09 марта 2012

2ГБ, кажется, немного меньше, для чего я бы построил свой собственный инвертированный индекс (минимальный) :) Однако нет никаких проблем с использованием Lucene / Solr.Преуспевать.Это поможет вам, когда ваши записи начнут удваиваться.Однако в этом масштабе (2 ГБ) или даже намного больше, многие реальные вещи работают над полнотекстовым поиском в базах данных с использованием SQL-подобного ключевого слова.

1 голос
/ 09 марта 2012

Как и все, что связано с технологией, зависит.

То, что Lucene дает вам, что вы не получаете с XPath, - это мощь полнотекстового движка, который поддерживает, среди прочего, ранжирование и возможность формулировать запросы, групповые запросы и т. Д.

Исходя из вашего варианта использования, я бы сказал, что для полнотекстового поиска имеет смысл. Это не значит, что ванильный Lucene - лучший путь (есть, например, другие альтернативы, основанные на Lucene).

...