Насколько я понимаю после прочтения документов, работает эластичный поиск в том, что он учитывает частоту терминов * частоту обратного термина.Он преобразует текст в некоторый словарь терминов частоты, который также включает в себя индексы мест, где эти термины наиболее часто встречаются.
Я пытаюсь не хранить текст, а использовать частоты терминов для каждой строки данных.,Поиск работает нормально, когда я просто загружаю полный текст, но он не будет хорошо работать в полномасштабном решении с 10 + мил страниц текста.Разве не было бы более эффективно хранить только частоты терминов, если содержание текста в противном случае не имеет значения?
edit: анонимность данных также имеет значение, и поэтому я не хотел бы, чтобы полные предложения и абзацы сохранялись внешне.