Получая все больше и больше отзывов, Thompson Sampling все больше и больше смещает свое внимание с разведки на разработку. То есть при больших значениях nSelected
по всем направлениям (из-за большого N
) все бета-распределения будут в значительной степени сосредоточены вокруг своего среднего (nPosReward[i]/nSelected[i]
), а для более крупных итераций с возрастающей вероятностью будет выбрана выборка Томпсона. машина, которую он считает самой полезной. Глядя на достаточно длинный горизонт, вы приближаете вероятность увидеть наиболее подходящую машину, которая также является наиболее часто выбираемой машиной, до 1.
Подводя итог, ваша интуиция верна. Машина, которая дает наибольшее вознаграждение в ожидании (с учетом наблюдаемой на данный момент обратной связи), имеет наивысшее эмпирическое среднее значение. Из-за явления вероятности c, которое я только что описал, если вы запустите алгоритм достаточно долго, наиболее часто выбираемая машина и машина с наибольшим ожидаемым вознаграждением будут совпадать с вероятностью, приближающейся к 1.
О второй части на ваш вопрос, мы не знаем процент успешных попыток. Если бы мы знали их, оптимальный алгоритм просто выбрал бы те из них, у которых всегда был самый высокий процент успеха. В реальной жизни мы наблюдаем результаты этих случайных процессов. Например, когда вы показываете онлайн-рекламу, вы не знаете, с какой вероятностью они нажмут. Однако с большим упрощением, предполагающим, что все ведут себя одинаково, показывая это людям и наблюдая, щелкают они по нему или нет, мы узнаем процент успеха на лету.