Взвешенный алгоритм поиска похожих игроков - PullRequest
1 голос
/ 23 января 2012

Я бы хотел определить ближайший матч для каждого из игроков в моем местном клубе бадминтона, основываясь на их результатах. Все игры одиночные. Победителем становится первый с 21 очком и с 2 четкими очками. Если с первого по 21 не набрано 2 чистых очка, игра будет продолжена, и победителем будет первый с 2 ​​ясными очками или с первым 30 очками (в зависимости от того, что наступит раньше). Таким образом, победитель может иметь оценку от 21 до 30, а проигравший - от 0 до 29.

Я могу определить сходство между двумя игроками, рассчитав разницу в их среднем счете. Чем ниже среднее, тем больше похожи игроки.

Однако я хотел бы дать больший вес тем, кто сыграл больше игр, чем тем, кто играл мало.

Что и как лучше всего добавить справедливое взвешивание, которое будет масштабироваться из любого количества сыгранных игр?

ТИА

1 Ответ

1 голос
/ 24 января 2012

Вы можете применить понятие доверительный интервал из статистики.Размер доверительного интервала зависит (статистически) как от размера выборки (что соответствует количеству сыгранных игр), так и от дисперсии основной популяции.Длина доверительного интервала уменьшается с размером выборки (поскольку у вас есть больше данных для оценки) и увеличивается с увеличением дисперсии базовой популяции.

Конечно, вы не проводите строгий статистический анализ, поэтомусвобода применять идеи доверительных интервалов в формуле, которая соответствует вашим целям.Как вы увидите в связанной статье, при оценке среднего значения нормальной популяции размер доверительного интервала уменьшается с квадратным корнем из размера выборки.Таким образом, вы можете искусственно использовать этот фактор в своей формуле с «эвристическим» обоснованием.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...