Как я могу получитьasticsearch, чтобы всегда возвращать наименьшее значение поля ("длина URL")? - PullRequest
0 голосов
/ 20 апреля 2020

Как мне всегда возвращать документы с наименьшим значением в поле «url_length» независимо от (от), который я отправил на поиск?

в запросе ниже, я запрашиваю результаты, содержащие слово (netflix) и что поле (pgrk) находится между 9 и 10 и что поле (url_length) меньше 4, но когда я его ставлю ("from": 1, "size": 1) не возвращает do c of (_id 15), в котором есть слово (netflix), поле pgrk = 10 и поле (url_length) = 2. Возвращает do c из (_id 14), в котором есть слово (netflix), в поле pgrk = 10 и поле (url_length) = 3

просто возвращает do c of (_id 15), которое имеет поле (url_length) = 2, если я добавлю его в запрос от ZERO ("from") : 0, "size": 1)

, потому что я провел его поиск ("from": 1, "size": 1,) и не принес запись (_id 15), которая имеет ( "url_length" = 2) принесла запись (_id 14), которая имеет ("url_length" = 3)

{
    "from": 1,
    "size": 1,
    "sort": [
        {
            "pgrk": {
                "order": "desc"
            }
        },
        {
            "url_length": {
                "order": "asc"
            }
        }
    ],
    "query": {
        "bool": {
            "must": {
                "multi_match": {
                    "query": "netflix",
                    "type": "cross_fields",
                    "fields": [
                        "tittle",
                        "description",
                        "url"
                    ],
                    "operator": "and"
                }
            },
            "filter": [
                {
                    "range": {
                        "pgrk": {
                            "gte": 9,
                            "lte" : 10
                        }
                    }
                },
                {
                    "range": {
                        "url_length": {
                           "lt" : 4
                        }
                    }
                }
            ]
        }
    }
}

, если я поставлю ("from": 1, "size": 1,) это не возвращает го Запись (_id 15), у которой "url_length = 2" возвращает do c из _id 14, который имеет "url_length = 3", как показано ниже:

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 2,
      "relation": "eq"
    },
    "max_score": null,
    "hits": [
      {
        "_index": "teste",
        "_type": "_doc",
        "_id": "14",
        "_score": null,
        "_source": {
          "url": "www.333.com",
          "title": "netflix netflix netflix netflix netflix netflix netflix netflix netflix netflix",
          "description": "tudo sobre netflix netflix netflix netflix netflix netflix",
          "pgrk": "10",
          "url_length": "3"
        },
        "sort": [
          10,
          3
        ]
      }
    ]
  }
}

, если я поставлю ("from": 0, "size": 1,) затем возвращает запись (_id 15), которая имеет "url_length = 2"

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 2,
      "relation": "eq"
    },
    "max_score": null,
    "hits": [
      {
        "_index": "teste",
        "_type": "_doc",
        "_id": "15",
        "_score": null,
        "_source": {
          "url": "www.netflix.yahoo.com",
          "title": "melhor filme",
          "description": "tudo sobre series",
          "pgrk": "10",
          "url_length": "2"
        },
        "sort": [
          10,
          2
        ]
      }
    ]
  }
}

как мне всегда возвращать документы с самым низким значением в "url_length" поле вне зависимости от (из) что я отправил на поиск?

Ответы [ 2 ]

0 голосов
/ 20 апреля 2020

Я проверил, что do c (_id 14) содержит несколько слов (netflix) в поле заголовка в поле описания, и, похоже, именно поэтому (_id 14) было возвращено вместо (_id 15).

Можно ли как-нибудь отключить эту пунктуацию, которую делаетasticsearch, когда искомое слово существует несколько раз в одном и том же do c? потому что, несмотря на фильтры, которые я использую, кажется, что количество слов, найденных в do c, соответствует релевантности do c

0 голосов
/ 20 апреля 2020

следует моему отображению:

{
  "settings": {
    "index": {
      "number_of_shards": "5",
      "number_of_replicas": "0",
      "analysis": {
        "filter": {
          "stemmer_plural_portugues": {
            "name": "minimal_portuguese",
            "stopwords" : ["http", "https", "ftp", "www"],
            "type": "stemmer"
          }
        },
        "analyzer": {
          "analyzer_customizado": {
            "filter": [
              "lowercase",
              "stemmer_plural_portugues",
              "asciifolding"
            ],
            "tokenizer": "lowercase"
          }
        }

      }
    }
  },
  "mappings": {
      "properties": {
        "q": {
          "type": "text",
          "fields": {
            "keyword": {
              "ignore_above": 256,
              "type": "keyword"
            }
          }
        },
        "id": {
         "type": "long"
        },
        "@timestamp": {
          "type": "date"
        },
        "data": {
          "type": "date"
        },
        "@version": {
          "type": "text",
          "fields": {
            "keyword": {
              "ignore_above": 256,
              "type": "keyword"

            }
          }
        },
        "quebrado": {
          "type": "byte"

        },
           "pgrk": {
           "type":  "integer" 
        },

         "url_length": {
           "type":  "integer" 
        },
          "term": {
          "type": "text",
          "fields": {
            "keyword": {
              "ignore_above": 256,
              "type": "keyword"
            }
          }
        },
        "titulo": {
          "analyzer": "analyzer_customizado",
          "type": "text",
          "fields": {
            "keyword": {
              "ignore_above": 256,
              "type": "keyword"
            }
          }
        },
        "descricao": {
        "analyzer": "analyzer_customizado",
          "type": "text",
          "fields": {
            "keyword": {
              "ignore_above": 256,
              "type": "keyword"
            }
          }
        },
        "url": {
          "analyzer": "analyzer_customizado",
          "type": "text",
          "fields": {
            "keyword": {
              "ignore_above": 256,
              "type": "keyword"
            }
          }
        }
      }
    }
  }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...