Lucene.net поиск по нескольким полям - PullRequest
9 голосов
/ 24 февраля 2011

В попытке получить более релевантные контекстуальные результаты поиска я решил поиграть с lucene.net, хотя я очень новичок в этом и обнаружил, что это не самая интуитивная библиотека, которую япопадаютсяЭто не помогло отсутствием соответствующих примеров, чтобы помочь мне разобраться.

Я использую simple lucene для построения моего индекса, и это, кажется, работает отлично:

Field f = null;
Document document = new Document();

document.Add(new Field("id", dl.Id.ToString(), Field.Store.YES, Field.Index.NOT_ANALYZED));

f = new Field("category", dl.CategoryName.ToLowerInvariant(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
f.SetBoost(5);
document.Add(f);

f = new Field("company_name", dl.CompanyName.ToLowerInvariant(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
f.SetBoost(2);
document.Add(f);

document.Add(new Field("description", dl.Description.ToLowerInvariant(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS));
document.Add(new Field("meta_keywords", dl.Meta_Keywords.ToLowerInvariant(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS));
document.Add(new Field("meta_description", dl.Meta_Description.ToLowerInvariant(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS));

//And a few more fields

Основываясь на этом индексе, я сначала попытался выполнить запрос в следующем формате:

var whatParser = new MultiFieldQueryParser(
    global::Lucene.Net.Util.Version.LUCENE_29,
    new string[] { "company_name", "description", "meta_keywords", "meta_description", "category" },
    analyzer);

whatQuery = whatParser.Parse("search".ToLowerInvariant());

Это работало до тех пор, пока поисковый термин не стал больше чем 1 слово.Следующим шагом был запрос фразы.

whatQuery = new PhraseQuery();
whatQuery.Add(new Term("company_name", what));
whatQuery.Add(new Term("description", what));
whatQuery.Add(new Term("meta_keywords", what));
whatQuery.Add(new Term("meta_description", what));
whatQuery.Add(new Term("category", what));

Который я затем обнаружил, выдал ошибку: All phrase terms must be in the same field

Итак, где я ошибаюсь?Есть ли у вас какие-либо предложения о том, как это исправить?Я готов полностью изменить технологию поиска, если есть лучшие предложения.

Некоторая дополнительная информация, которая может быть полезна

  • Все результаты сортируются в конце с помощью new Sort(new SortField[] {new SortField("is_featured", SortField.STRING, true),SortField.FIELD_SCORE})
  • Существуют некоторые дополнительные критерии поиска, поэтому каждый запрос добавляется в логический запрос, для которого задано значение SHOULD

Спасибо за помощь.

1 Ответ

3 голосов
/ 24 февраля 2011

Я думаю, что BooleanClause.Occur.SHOULD это проблема. Мы используем это так:

string[] fieldList = { "field1", "field2", "field3"; 

//for us the field list varies .. there are other ways to create this array of course
List<BooleanClause.Occur> occurs = new List<BooleanClause.Occur>();
foreach (string field in fieldList)
    occurs.Add(BooleanClause.Occur.SHOULD);

if(!string.IsNullOrEmpty(multiWordPhrase))
{
    Query q = MultiFieldQueryParser.Parse(multiWordPhrase, fieldList, occurs.ToArray(), new StandardAnalyzer());
    return q;
}
...