Больше похоже на это - упругий поиск не дает правильных результатов - PullRequest
0 голосов
/ 17 октября 2018

Текущие данные-

    "hits": {
        "total": 2,
        "max_score": 38.91894,
        "hits": [
            {
                "_index": "evg_dev",
                "_type": "component",
                "_id": "907784",
                "_score": 38.91894,
                "_source": {
                    "component_type": "para",
                    "qual_data_desc": "test_text_136",
                    "last_changed_by": "testuserevg",
                    "document_used": "",
                    "element_detail": "<para><para>Tit fot&nbsp;tat&nbsp;tit</para></para><para/>",
                    "datetime_created": "2018-10-16T12:31:33.932Z",
                    "datetime_last_changed": "2018-10-16T13:13:15.372Z",
                    "created_by": "testuserevg"
                }
            },
            {
                "_index": "evg_dev",
                "_type": "component",
                "_id": "907783",
                "_score": 37.329224,
                "_source": {
                    "component_type": "para",
                    "qual_data_desc": "test_evg_213",
                    "last_changed_by": "testuserevg",
                    "document_used": "",
                    "element_detail": "<para><para>tit fot&nbsp;tat</para></para><para/>",
                    "datetime_created": "2018-10-15T14:39:15.696Z",
                    "datetime_last_changed": "2018-10-15T14:42:34.145Z",
                    "created_by": "testuserevg"
                }
            }
        ]
     }

Вот сопоставление для этого-

"term_vector_analyzer": {
                "type" : "custom",
                "tokenizer": "standard",
                "filter": ["asciifolding", "lowercase", "word_delimiter",
                            "kstem", "english_stopwords"],
                "char_filter": ["html_strip"]
            }
"element_detail": {
                    "type": "text",
                    "fields": {
                        "kstem_words": {
                            "type": "text",
                            "analyzer": "term_vector_analyzer"
                        }
                    }
                },

Когда мы пытаемся получить результат, используя больше похожий на этот запрос, мы не получим правильные результаты.

Вот мой больше похожий на этот запрос-

{
"query":{
    "more_like_this": {
        "fields": ["element_detail"],
        "analyzer":"html_analyzer_without_tags",
        "like":"Tit fot tat tata",
        "min_term_freq":"1",
        "min_doc_freq":"1",
        "minimum_should_match":"10%"
    }
    }
}

И html_analyser_without_tag - -

"html_analyzer_without_tags": {
                    "type": "custom",
                    "tokenizer": "keyword",
                    "filter": ["asciifolding", "lowercase", "word_delimiter",
                                "kstem", "stemmed_appasense_stopwords_filter"],
                    "char_filter": ["no_escape_tag_char_filter"]
                }

Мы также добавили такие термины, как min_doc_freq и все, но ни один из них не работаетЕсть ли что-нибудь, связанное с настройкой отображения, из-за чего мы получаем такую ​​ошибку?

Мы также пытались посмотреть, дает ли анализатор правильные значения или нет, но он возвращает правильные значения, он маркирует их, возвращает каждое отдельное слово,даже снижение «минимальной_схваты» до 1% у нас не сработало.

...