Elasticsearch полное текстовое сходство или нет результатов - PullRequest
0 голосов
/ 13 февраля 2020

У меня есть индекс эластичного поиска с несколькими документами OCR

document_id |              OCR
-----------------------------------------------
1           | this is the ocr of document 1
2           | ocr for doc 2
...         | ...

Теперь, когда приходит новый документ, мне нужно выяснить, какой тип документа сравнивает новый OCR с полным индексом или результатов нет, если поиск не достаточно похож (х% похож)

Проблема в том, что мне нужно, чтобы при поиске полного текста в том же порядке слов (не отдельных слов) отличались более чем на х%, я не Я не хочу получать результаты для этого поиска.

С match и minimum_should_match Я всегда получаю результат, потому что он просматривает все слова во всем тексте, независимо от их порядка в нем.

Мне нужен какой-то поиск, который ищет полный текст с тем же порядком слов и ничего не возвращает, если процентное соотношение сходства меньше, например, 70%

Спасибо

...