взвешенное случайное распределение - PullRequest
0 голосов
/ 10 января 2019

Я хочу реализовать взвешенное случайное распределение в упругом поиске. В моем указателе каждый документ имеет вес от 1 до N. Таким образом, элемент с весом 1 должен появляться в результате в 2 раза меньше, чем документ с весом 2. Например, у меня есть 3 документа (один с весом 2, два с весом 1):

[
            {
                "_index": "we_recommend_on_main",
                "_type": "we_recommend_on_main",
                "_id": "5-0",
                "_score": 1.1245852,
                "_source": {
                    "id_map_placement": 6151,
                    "image": "/upload/banner1",
                    "weight": 2
                }
            },
            {
                "_index": "we_recommend_on_main",
                "_type": "we_recommend_on_main",
                "_id": "8-0",
                "_score": 0.14477867,
                "_source": {
                    "id_map_placement": 6151,
                    "image": "/upload/banner1",
                    "weight": 1
                }
            },
            {
                "_index": "we_recommend_on_main",
                "_type": "we_recommend_on_main",
                "_id": "8-1",
                "_score": 0.0837487,
                "_source": {
                    "id_map_placement": 6151,
                    "image": "/upload/banner2",
                    "weight": 1
                }
            }
        ]
Я нашел решение с помощью поиска так:
{
    "size": 1,
    "query": {
        "function_score": {
            "functions": [
                {
                    "random_score": {}
                },
                {
                    "field_value_factor": {
                        "field": "weight",
                        "modifier": "none",
                        "missing": 1
                    }
                }
            ],
            "score_mode": "multiply",
            "boost_mode": "replace"
        }
    },
    "sort": [
        {
            "_score": "desc"
        }
    ]
}

После того, как я проверил этот запрос с 10000 раз, результат будет

{
        "5-0": 6730,
        "8-1": 1613,
        "8-0": 1657
    }
Но нет
{
        "5-0": 5000,
        "8-1": 2500,
        "8-0": 2500
    }
как я и предполагал. Что случилось?

1 Ответ

0 голосов
/ 10 января 2019

К сожалению, проблема в том, что ваше предположение об этом распределении неверно. У нас есть классическая вероятностная проблема теории здесь. Переменные A, B, C равномерно распределены (A, B между 0 и 1, C между 0 и 2). Нам нужно найти вероятность того, что C будет больше, чем A или B.

Объяснение: поскольку C равномерно распределен между 0 и 2, по простой формуле ясно, что с вероятностью 50% он распределен между 1 и 2, что автоматически означает, что оно будет быть больше, чем A или B.

Однако существуют случаи, когда C будет меньше 1, но все же больше, чем A или B, что делает вероятность строго больше, чем 50% и намного больше, чем 50%.

2-я часть распределения - где все 3 переменные находятся между 0 и 1. Вероятность того, что C будет больше, чем A или B, равна 1/3 . Однако C распределяется здесь только в 50% случаев, что делает эту вероятность - 1/6. Общая вероятность составляет 1/2 + 1/6 = 4/6, что составляет примерно числа, которые вы получили с помощью симуляции Монте-Карло

Upd. Невозможно достичь ожидаемого поведения, так как вы не можете контролировать скоринг, когда вы будете собирать агрегаты - например, сумму весов. Я бы порекомендовал сделать это в порядке восстановления с первым запросом агрегации суммы на поле, а затем повторно использовать его.

...