Elasti c поиск подстановочный запрос, чтобы получить отсортированные результаты - PullRequest
1 голос
/ 29 февраля 2020

У меня есть Elasti c Настройка сервера поиска, где хранятся названия компаний, которые будут использоваться для поиска компании, как это работает:

Из названия компании пробелы и точки будут удалены и сохранены в ES в поле с именем trimmedcompanyname

{
          "companyName" : "RECKON INFOSYSTEM PRIVATE LIMITED",
          "trimmedCompanyName" : "reckoninfosystemprivatelimited",
          "id" : "1079"
}        

теперь, когда поиск приходит на мой сервер, я удаляю пробелы и точки и затем делаю запрос к серверу ES. Запрос ES в формате запроса:

GET /_search
{
   "from": 0,"size": 100,
    "query": {
        "wildcard": {
            "trimmedCompanyName.keyword": {
                "value": "*infosys*"
            }
        }
    }
}

Но у меня есть около 600 компаний с именами в них, и они будут храниться с удаленными пробелами. Таким образом, ES возвращает мне 100 компаний, но в этих 100 компаниях информация присутствует в начале второго слова или в начале третьего слова, но я хочу, чтобы результат включал компании, которые имеют информацию в первом слове, а затем во втором слове и так далее.

Единственное решение, которое я мог придумать, - запустить два запроса ES, один с подстановочным запросом infosys*, а второй запрос *infosys* объединить оба результата, удалить дубликаты и дать ответ, но так как этот запрос должен работать вместе с нумерацией страниц, поэтому выполнение двух запросов может привести к ошибкам, может кто-нибудь помочь мне с этим

1 Ответ

1 голос
/ 29 февраля 2020

Прежде всего, когда речь идет о корпусных данных, традиционные алгоритмы подобия или запросы, которые мы используем в ES, не учитывают положение терминов при вычислении релевантности.

Для позиционных запросов: вам нужно будет использовать Span Queries

Мне удалось найти следующее решение, которое должно работать в вашем случае. Обратите внимание, что я использовал запрос для поля companyName, и я предполагаю, что он использует Стандартный анализатор .

Ниже приведены сопоставление, примеры документов, запрос и ответ. как это выглядит:

Отображение:

PUT my_company
{
  "mappings": {
    "properties": {
      "companyName":{
        "type":"text"
      }
    }
  }
}

Образцы документов:

POST my_company/_doc/1
{
  "companyName": "reckon infosystem private limited"
}

POST my_company/_doc/2
{
  "companyName": "infosys"
}

POST my_company/_doc/3
{
  "companyName": "telecom services infosystem private limited"
}

POST my_company/_doc/4
{
  "companyName":"infosystems technological solution"
}

Запрос:

POST <your_index_name>/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "span_multi": {
            "match": {
              "wildcard": {
                "companyName": "infosys*"
              }
            }
          }
        }
      ]
    }
  }
}

Обратите внимание, что я использовал подстановочный запрос внутри Span многоточечного запроса.

Вам может быть интересно, почему я не использовал поле trimmedCompanyName, потому что, глядя на его отображение (даже если его text тип с standard analyzer), значения или содержимое в нем все рассматриваются как один термин и хранятся таким образом в перевернутом индексе.

Ответ:

{
  "took" : 4,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 4,
      "relation" : "eq"
    },
    "max_score" : 4.3264027,
    "hits" : [
      {
        "_index" : "my_company",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 4.3264027,
        "_source" : {
          "companyName" : "infosys"
        }
      },
      {
        "_index" : "my_company",
        "_type" : "_doc",
        "_id" : "4",
        "_score" : 3.2018504,
        "_source" : {
          "companyName" : "infosystems technological solution"
        }
      },
      {
        "_index" : "my_company",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 2.8335867,
        "_source" : {
          "companyName" : "reckon infosystem private limited"
        }
      },
      {
        "_index" : "my_company",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 2.5412967,
        "_source" : {
          "companyName" : "telecom services infosystem private limited"
        }
      }
    ]
  }
}

Дайте мне знать, если это поможет!

...