Упругий поиск: строка запроса и номер не всегда возвращают желаемый результат - PullRequest
0 голосов
/ 11 октября 2018

У нас есть эластичный поиск 5.5.Мы используем nest для выполнения наших запросов через C #.

При выполнении следующего запроса:

{
  "query": {
    "bool": {
      "must": [
        {
          "query_string": {
            "query": "00917751"
          }
        }
      ]
    }
  }
}

Мы получаем желаемый результат: один результат с таким числом какидентификатор.

При выполнении запроса:

{
  "query": {
    "bool": {
      "must": [
        {
          "query_string": {
            "query": "917751"
          }
        }
      ]
    }
  }
}

Мы не получаем результатов.

Значение, которое мы ищем, находится в поле searchIndentifierи имеет значение "1-00917751".

У нас есть специальный анализатор с именем "final"

.Custom ("final", cu => cu .Tokenizer (")ключевое слово "). Фильтры (новый список () {" строчные буквы "}))

В поле searchIndentifier не настроен пользовательский анализатор.Я попытался добавить в него токенайзер пробелов, но это не имело никакого значения.

Другое поле с именем «searchObjectNo» работает, когда я пытаюсь найти значение «S328-25» с помощью запроса «S328».Эти поля абсолютно одинаковы.

Есть идеи?

Еще один связанный с этим вопрос: при выполнении запроса

{
  "query": {
    "bool": {
      "must": [
        {
          "query_string": {
            "query": "1-00917751"
          }
        }
      ]
    }
  }
}

мы получаем многорезультатов.Я хотел бы, чтобы это вернуло только 1 результат.Как бы мы этого достигли?

Спасибо, Schoof

Настройки и отображение: https://jsonblob.com/9dbf33f6-cd3e-11e8-8f17-c9de91b6f9d1

1 Ответ

0 голосов
/ 13 октября 2018

Поле searchIndentifier отображается как тип данных text, который будет подвергаться анализу и по умолчанию использовать Стандартный анализатор.Используя API Analyze, вы можете увидеть, какие термины будут храниться в инвертированном индексе для 1-00917751

var client = new ElasticClient();

var analyzeResponse = client.Analyze(a => a
    .Text("1-00917751")
);

, который возвращает

{
  "tokens" : [
    {
      "token" : "1",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "<NUM>",
      "position" : 0
    },
    {
      "token" : "00917751",
      "start_offset" : 2,
      "end_offset" : 10,
      "type" : "<NUM>",
      "position" : 1
    }
  ]
}

Вы получите совпадение для query_string запрос с входным запросом 00917751, поскольку это соответствует одному из терминов, сохраненных в инвертированном индексе в результате анализа во время индекса для ввода 1-00917751.

Вы не получитесоответствует 917751, поскольку в инвертированном индексе отсутствует термин, который будет соответствовать.Вы можете определить цепочку анализа, которая удаляет начальные нули из чисел, а также сохраняет исходный токен, например:

private static void Main()
{
    var defaultIndex = "foobarbaz";
    var pool = new SingleNodeConnectionPool(new Uri("http://localhost:9200"));

    var settings = new ConnectionSettings(pool)
        .DefaultIndex(defaultIndex);

    var client = new ElasticClient(settings);

    client.CreateIndex(defaultIndex, c => c
        .Settings(s => s
            .Analysis(a => a
                .Analyzers(an => an
                    .Custom("trim_leading_zero", ca => ca
                        .Tokenizer("standard")
                        .Filters(
                            "standard", 
                            "lowercase", 
                            "trim_leading_zero",
                            "trim_zero_length")
                    )
                )
                .TokenFilters(tf => tf
                    .PatternReplace("trim_leading_zero", pr => pr
                        .Pattern("^0+(.*)")
                        .Replacement("$1")
                    )
                    .Length("trim_zero_length", t => t
                        .Min(1)
                    )
                )
            )
        )
        .Mappings(m => m
            .Map<MyDocument>(mm => mm
                .AutoMap()
                .Properties(p => p
                    .Text(t => t
                        .Name(n => n.SearchIndentifier)
                        .Analyzer("trim_leading_zero")
                        .Fields(f => f
                            .Keyword(k => k
                                .Name("keyword")
                                .IgnoreAbove(256)
                            )
                        )
                    )
                )
            )
        )
    );

    client.Index(new MyDocument { SearchIndentifier = "1-00917751" }, i => i
        .Refresh(Refresh.WaitFor)
    );

    client.Search<MyDocument>(s => s
        .Query(q => q
            .QueryString(qs => qs
                .Query("917751")
            )
        )
    );
}

public class MyDocument 
{
    public string SearchIndentifier { get; set; }
}

Фильтр токенов pattern_replacement обрезает начальные нули по токенам.

поискзапрос возвращает проиндексированный документ

{
  "took" : 69,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 1,
    "max_score" : 0.33310556,
    "hits" : [
      {
        "_index" : "foobarbaz",
        "_type" : "mydocument",
        "_id" : "MVF4bmYBJZHQAT-BUx1K",
        "_score" : 0.33310556,
        "_source" : {
          "searchIndentifier" : "1-00917751"
        }
      }
    ]
  }
}
...