Возвращает количество документов на основе слов в строке поля - PullRequest
1 голос
/ 29 января 2020

Как я могу вернуть количество документов, которые имеют более 2 элементов в списке «слов» и более 3 слов в слове «word_combination». Есть ли способ подсчитать количество слов в строке?

Пример: вернуть документ, если (длина слова "> 2) AND (" words.word_combination "содержит более 3 слов)

У меня хранится много документов. Структура одного документа выглядит следующим образом:

"_source" : {
"group_words" : [

  {
    "amount" : 1140,
    "words" : [
      {
        "relevance_score" : 56,
        "points" : 66461,
        "bits" : 100,
        "word_combination" : "cat dog"
      },
      {
        "relevance_score" : 84,
        "points" : 45202,
        "bits" : 990,
        "word_combination" : "cat dog elephant"
      },
      {
        "relevance_score" : 99,
        "points" : 30974,
        "bits" : 70,
        "word_combination" : "elephant cat mouse leopard"
      }
    ],
    "group" : "whatever"
  },
  {
    "amount" : 1320,
    "words" : [
      {
        "relevance_score" : 25,
        "points" : 53396,
        "bits" : 70,
        "word_combination" : "lion elephant"
      },
      {
        "relevance_score" : 66,
        "points" : 52166,
        "bits" : 20,
        "word_combination" : "lion mouse fish cat dog"
      },
      {
        "relevance_score" : 82,
        "points" : 49316,
        "bits" : 810,
        "word_combination" : "elephant cat mouse leopard dog lion"
      },
      {
        "relevance_score" : 87,
        "points" : 127705,
        "bits" : 290,
        "word_combination" : "elephant cat mouse leopard tiger lion"
      }
    ],
    "group" : "whatever"
  },
  {
    "amount" : 11260,
    "words" : [
      {
        "relevance_score" : 0,
        "points" : 37909,
        "bits" : 9000,
        "word_combination" : "elephant cat mouse leopard tiger lion monkey"
      },
      {
        "relevance_score" : 3,
        "points" : 35782,
        "bits" : 540,
        "word_combination" : "elephant"
      }
    ],
    "group" : "whatever"
  }      
]

}

1 Ответ

1 голос
/ 30 января 2020

Что касается количества элементов в массиве words, я советую сохранить это число в дополнительном поле words_count во время индексации.

  {
    "amount" : 1140,
    "words_count": 3,                           <--- add this
    "words" : [
      {
        "relevance_score" : 56,
        "points" : 66461,
        "bits" : 100,
        "word_combination" : "cat dog"
      },
      {
        "relevance_score" : 84,
        "points" : 45202,
        "bits" : 990,
        "word_combination" : "cat dog elephant"
      },
      {
        "relevance_score" : 99,
        "points" : 30974,
        "bits" : 70,
        "word_combination" : "elephant cat mouse leopard"
      }
    ],
    "group" : "whatever"
  },

Относительно количества слов (или токенов) ) в поле word_combination есть тип данных с именем token_count, который существует именно для этой цели. Просто определите ваше отображение следующим образом:

...
"word_combination": {
  "type": "text",
  "fields": {
    "count": {
      "type": "token_count",
      "analyzer": "standard"
    }
  }
}

Тогда в вашем запросе вы можете получить доступ к word_combination.count, который будет содержать количество токенов (проанализированных указанным анализатором), присутствующих в поле word_combination .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...