Elastic / Kibana: поддержка множественного числа в поисковых запросах - PullRequest
0 голосов
/ 09 марта 2019

Я упросту мою проблему. Допустим, у меня есть индекс с 3 документами, которые я создал с помощью Kibana:

PUT /test/vendors/1
{
  "type": "doctor",
  "name": "Phil",
  "works_in": [
      {
        "place": "Chicago"  
      },
      {
        "place": "New York"
      }
    ]
}

PUT /test/vendors/2
{
  "type": "lawyer",
  "name": "John",
  "works_in": [
      {
        "place": "Chicago"  
      },
      {
        "place": "New Jersey"
      }
    ]
}

PUT /test/vendors/3
{
  "type": "doctor",
  "name": "Jill",
  "works_in": [
      {
        "place": "Chicago"  
      }
    ]
}

Сейчас я запускаю поиск:

GET /test/_search
{
  "query": {
    "multi_match" : {
      "query":    "doctor in chicago", 
      "fields": [ "type", "place" ] 
    }
  }
}

И я получаю хороший ответ:

{
  "took": 4,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "test",
        "_type": "vendors",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "type": "doctor",
          "name": "Phil",
          "works_in": [
            {
              "place": "Chicago"
            },
            {
              "place": "New York"
            }
          ]
        }
      },
      {
        "_index": "test",
        "_type": "vendors",
        "_id": "3",
        "_score": 0.2876821,
        "_source": {
          "type": "doctor",
          "name": "Jill",
          "works_in": [
            {
              "place": "Chicago"
            }
          ]
        }
      }
    ]
  }
}

Теперь все становится проблематичным ...

Изменено doctor на doctors

GET /test/_search
{
  "query": {
    "multi_match" : {
      "query":    "doctors in chicago", 
      "fields": [ "type", "place" ] 
    }
  }
}

Ноль результатов, как doctors не найдено. Эластик не знает о множественном и единственном числе.

Измените запрос на New York

GET /test/_search
{
  "query": {
    "multi_match" : {
      "query":    "doctor in new york", 
      "fields": [ "type", "place" ] 
    }
  }
}

Но набор результатов ответа дает мне doctor в Chicago в дополнение к doctor в New York. поля соответствуют OR ...

Другой интересный вопрос: что произойдет, если кто-то использует docs или physicians или health professionals, но означает doctor. Есть ли положение, в котором я могу научить Elasticsearch направлять их в "доктора"?

Есть ли какая-то закономерность, позволяющая обойтись без них только с помощью Центрального поиска? где мне не придется анализировать строку на предмет смысла в моем собственном приложении, которое затем построит сложный точный запрос эластичного поиска, чтобы соответствовать ему?

Буду признателен за указатель в правильном направлении

1 Ответ

1 голос
/ 09 марта 2019

Я предполагаю, что поля type и place имеют тип Текст с Стандартными анализаторами .

Для управления единичным / множественным числом то, что вы ищете, называется Snowball Token Filter , которое вам необходимо добавить в отображение.

Другое требование, которое вы упомянули, например, например, physicians также следует приравнять к doctor, вам необходимо использовать Фильтр токенов синонимов

Ниже показано, каким должно быть ваше отображение. Обратите внимание, что я только что добавил анализатор в type. Вы можете внести аналогичные изменения в сопоставление с другими полями.

Отображение

PUT <your_index_name>
{  
   "settings":{  
      "analysis":{  
         "analyzer":{  
            "my_analyzer":{  
               "tokenizer":"standard",
               "filter":[  
                  "lowercase",
                  "my_snow",
                  "my_synonym"
               ]
            }
         },
         "filter":{  
            "my_snow":{  
               "type":"snowball",
               "language":"English"
            },
            "my_synonym":{  
               "type":"synonym",
               "synonyms":[  
                  "docs, physicians, health professionals, doctor"
               ]
            }
         }
      }
   },
   "mappings":{  
      "mydocs":{  
         "properties":{  
            "type":{  
               "type":"text",
               "analyzer":"my_analyzer"
            },
            "place":{  
               "type":"text",
               "analyzer":"my_analyzer"
            }
         }
      }
   }
}

Обратите внимание, как я добавил синонимы в самом отображении, вместо этого я бы предложил добавить синонимы в текстовый файл, как показано ниже

{  
   "type":"synonym",
   "synonyms_path" : "analysis/synonym.txt"
}

Согласно ссылке, которой я поделился, упоминается, что выше настраивает фильтр синонимов с путем анализа / synonym.txt (относительно расположения конфигурации).

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...