Какое влияние окажет fielddata = true при запросе индекса документа ~ 10M и других вопросов? - PullRequest
0 голосов
/ 18 февраля 2019
  1. У меня есть индекс ~ 10M документов.В каждом документе у меня есть текстовое поле, в которое я вставляю строку, и в конце я хочу собрать все термины внутри этого поля.При попытке сделать это я получаю только всю строку.Я слышал только плохие вещи об использовании fielddata = true.Для такого количества документов действительно ли плохая практика использовать fielddata = true с точки зрения памяти?

  2. Есть ли разница (с точки зрения производительности) между использованием анализатора вконвейер индексации (просто установите анализатор в определенном поле) для использования анализатора в качестве функции (запустить анализатор для строки, получить результаты и поместить их в документ)?

  3. Синонимы - я определил список синонимов, думаю, я уже знаю ответ, но все же попробую, можно ли просто обновить такой список синонимов и все?или после обновления списка синонимов обязательно переиндексировать?

1 Ответ

0 голосов
/ 19 февраля 2019
  1. да, нехватка памяти - это проблема, но вы должны проверить ее, чтобы выяснить, сколько памяти вам нужно.10M - не слишком много документов для ограничения памяти кучи 32G.
  2. Я не понял вопроса
  3. во время создания индекса, вы должны указать на список (файл) слов синонимов.но после этого вы можете обновить список без необходимости переиндексации.конечно не простое сокращение (для этого вы должны переиндексировать).https://www.elastic.co/guide/en/elasticsearch/guide/current/synonyms-expand-or-contract.html
...