Впервые в Elastic search, используя индекс для хранения документов, например, Это информация компании о сотрудниках, в настоящее время в индексе есть 600 000 данных о сотрудниках, среди которых нам нужно вычислить расчеты расстояния на основе определенного атрибута, такого как адрес. По сути, мы делаем следующие шаги:
- Извлечь все документы из индекса в Java-программу.
- Используйте Lambdas для параллелизма и итерации по каждому документу, а затем рассчитайте расстояние (lavenshtien, NGram и TFID) с другими элементами в коллекциях и затем усредните значение.
Проблема с этим потоком состоит в том, что мы загружаем все документы, присутствующие в индексе, в память Java, а затем применяем формулы, это отнимает много времени как для загрузки, так и для применения формул, более того, JVM будет иметь ограничение памяти для загрузить документы в память.
Простите за ограниченные знания по этому вопросу, но есть ли способ, с помощью которого мы можем запускать эти формулы расстояний непосредственно при упругом поиске, а не загружать весь индекс в память.
Спасибо за помощь ...