Question

Я недавно начал использовать ElasticSearch, и я не могу заставить его искать часть слова.

Пример: у меня есть три документа из моего couchdb, проиндексированных в ElasticSearch:

{
  "_id" : "1",
  "name" : "John Doeman",
  "function" : "Janitor"
}
{
  "_id" : "2",
  "name" : "Jane Doewoman",
  "function" : "Teacher"
}
{
  "_id" : "3",
  "name" : "Jimmy Jackal",
  "function" : "Student"
}

Итак, я хочу найти все документы, содержащие «Доу»

curl http://localhost:9200/my_idx/my_type/_search?q=Doe

, которые не возвращают ни одного попадания.Но если я ищу

curl http://localhost:9200/my_idx/my_type/_search?q=Doeman

, он возвращает один документ (Джон Доуман).

Я попытался установить разные анализаторы и разные фильтры в качестве свойств моего индекса.Я также пытался использовать полный запрос (например:

{
  "query": {
    "term": {
      "name": "Doe"
    }
  }
}

), но, похоже, ничего не работает.

Как я могу заставить ElasticSearch найти и Джона Доумана, и Джейн Доуоман, когда япоиск "Доу"?

ОБНОВЛЕНИЕ

Я пытался использовать токенизатор и фильтр nGram, как предложил Игорь, например:

{
  "index": {
    "index": "my_idx",
    "type": "my_type",
    "bulk_size": "100",
    "bulk_timeout": "10ms",
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "type": "custom",
          "tokenizer": "my_ngram_tokenizer",
          "filter": [
            "my_ngram_filter"
          ]
        }
      },
      "filter": {
        "my_ngram_filter": {
          "type": "nGram",
          "min_gram": 1,
          "max_gram": 1
        }
      },
      "tokenizer": {
        "my_ngram_tokenizer": {
          "type": "nGram",
          "min_gram": 1,
          "max_gram": 1
        }
      }
    }
  }
}

Проблема у меня сейчас в том, что каждый запрос возвращает ВСЕ документы.Есть указатели?Документация ElasticSearch по использованию nGram невелика ...

roka · Answer 1 · 20 сентября 2011

Я тоже использую nGram. Я использую стандартный токенизатор и nGram как фильтр. Вот мои настройки:

{
  "index": {
    "index": "my_idx",
    "type": "my_type",
    "analysis": {
      "index_analyzer": {
        "my_index_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "mynGram"
          ]
        }
      },
      "search_analyzer": {
        "my_search_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "standard",
            "lowercase",
            "mynGram"
          ]
        }
      },
      "filter": {
        "mynGram": {
          "type": "nGram",
          "min_gram": 2,
          "max_gram": 50
        }
      }
    }
  }
}

Давайте найдем части слова длиной до 50 букв. Настройте max_gram, как вам нужно. В немецких словах может быть очень большим, поэтому я установил его на высокое значение.

imotov · Answer 2 · 24 июня 2011

Поиск с ведущими и конечными подстановочными знаками будет очень медленным для большого индекса. Если вы хотите иметь возможность поиска по префиксу слова, удалите подстановочный знак. Если вам действительно нужно найти подстроку в середине слова, вам лучше использовать ngram tokenizer.

Vijay Gupta · Answer 3 · 07 апреля 2017

Я думаю, что нет необходимости менять отображение. Попробуйте использовать query_string , это идеально. Все сценарии будут работать со стандартным анализатором по умолчанию:

У нас есть данные:

{"_id" : "1","name" : "John Doeman","function" : "Janitor"}
{"_id" : "2","name" : "Jane Doewoman","function" : "Teacher"}

Сценарий 1:

{"query": {
    "query_string" : {"default_field" : "name", "query" : "*Doe*"}
} }

Ответ:

{"_id" : "1","name" : "John Doeman","function" : "Janitor"}
{"_id" : "2","name" : "Jane Doewoman","function" : "Teacher"}

Сценарий 2:

{"query": {
    "query_string" : {"default_field" : "name", "query" : "*Jan*"}
} }

Ответ:

{"_id" : "1","name" : "John Doeman","function" : "Janitor"}

Сценарий 3:

{"query": {
    "query_string" : {"default_field" : "name", "query" : "*oh* *oe*"}
} }

Ответ:

{"_id" : "1","name" : "John Doeman","function" : "Janitor"}
{"_id" : "2","name" : "Jane Doewoman","function" : "Teacher"}

РЕДАКТИРОВАТЬ - Та же реализация с упругим поиском данных https://stackoverflow.com/a/43579948/2357869

Еще одно объяснение, как query_string лучше, чем другие https://stackoverflow.com/a/43321606/2357869

pythonHelpRequired · Answer 4 · 09 июня 2016

без изменения отображений индекса вы можете выполнить простой запрос префикса, который будет выполнять частичный поиск, как вы надеетесь на

т.

{
  "query": { 
    "prefix" : { "name" : "Doe" }
  }
}

https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-prefix-query.html

uı6ʎɹnɯ ꞁəıuɐp · Answer 5 · 06 мая 2015

Попробуйте решение, описанное здесь: Точные поиски подстрок в ElasticSearch

{
    "mappings": {
        "my_type": {
            "index_analyzer":"index_ngram",
            "search_analyzer":"search_ngram"
        }
    },
    "settings": {
        "analysis": {
            "filter": {
                "ngram_filter": {
                    "type": "ngram",
                    "min_gram": 3,
                    "max_gram": 8
                }
            },
            "analyzer": {
                "index_ngram": {
                    "type": "custom",
                    "tokenizer": "keyword",
                    "filter": [ "ngram_filter", "lowercase" ]
                },
                "search_ngram": {
                    "type": "custom",
                    "tokenizer": "keyword",
                    "filter": "lowercase"
                }
            }
        }
    }
}

Чтобы решить проблему использования диска и проблему слишком длинных поисковых терминов, короткие 8 символов *Используется 1006 * нграмм (конфигурируется с помощью: "max_gram": 8 ).Чтобы выполнить поиск по терминам, содержащим более 8 символов, включите поиск в логический запрос AND для поиска каждой отдельной 8-символьной подстроки в этой строке.Например, если пользователь искал большой ярд (строка из 10 символов), поиск будет выглядеть так:

"arge ya, arge yar, AND rge ярд, .

Neshta · Answer 6 · 03 марта 2018

Если вы хотите реализовать функцию автозаполнения, то Подсказка по завершению является наиболее подходящим решением. Следующее сообщение в блоге содержит очень четкое описание того, как это работает.

В двух словах, это структура данных в памяти, называемая FST, которая содержит действительные предложения и оптимизирована для быстрого поиска и использования памяти. По сути, это просто график. Например, и FST, содержащий слова hotel, marriot, mercure, munchen и munich, будет выглядеть так:

Ali Moshiri · Answer 7 · 14 августа 2018

Вы можете использовать регулярное выражение.

{ "_id" : "1", "name" : "John Doeman" , "function" : "Janitor"}
{ "_id" : "2", "name" : "Jane Doewoman","function" : "Teacher"  }
{ "_id" : "3", "name" : "Jimmy Jackal" ,"function" : "Student"  }

если вы используете этот запрос:

{
  "query": {
    "regexp": {
      "name": "J.*"
    }
  }
}

вам будут переданы все данные, имена которых начинаются с буквы "J". Считайте, что вы хотите получить только первые две записи, имена которых оканчиваются на "man", поэтому вы можете использовать этот запрос:

{
  "query": { 
    "regexp": {
      "name": ".*man"
    }
  }
}

и если вы хотите получить все записи, которые в их названии существуют "m", вы можете использовать этот запрос:

{
  "query": { 
    "regexp": {
      "name": ".*m.*"
    }
  }
}

Это работает для меня. И я надеюсь, что мой ответ подойдет для решения вашей проблемы.

ldx · Answer 8 · 24 июня 2011

Nevermind.

Мне пришлось взглянуть на документацию Lucene. Кажется, я могу использовать подстановочные знаки! : -)

curl http://localhost:9200/my_idx/my_type/_search?q=*Doe*

делает трюк!

Как искать часть слова с ElasticSearch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как искать часть слова с ElasticSearch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов