У меня есть индекс эластичного поиска с несколькими документами OCR
document_id | OCR
-----------------------------------------------
1 | this is the ocr of document 1
2 | ocr for doc 2
... | ...
Теперь, когда приходит новый документ, мне нужно выяснить, какой тип документа сравнивает новый OCR с полным индексом или результатов нет, если поиск не достаточно похож (х% похож)
Проблема в том, что мне нужно, чтобы при поиске полного текста в том же порядке слов (не отдельных слов) отличались более чем на х%, я не Я не хочу получать результаты для этого поиска.
С match
и minimum_should_match
Я всегда получаю результат, потому что он просматривает все слова во всем тексте, независимо от их порядка в нем.
Мне нужен какой-то поиск, который ищет полный текст с тем же порядком слов и ничего не возвращает, если процентное соотношение сходства меньше, например, 70%
Спасибо